模型底层架构的大革新，看来真的要来了

虽然算力和数据是支撑大模型的关键要素，但怎么才能让它们发挥出最大价值？月之暗面（Moonshot AI）给出了新答案。2015年以来被广泛采用的传统残差连接，如今被Kimi团队彻底重构了。通过《Attention Residuals》这份技术报告，他们把那种把网络中的信息传递搞成RNN遗忘机制的设计给彻底推翻了。他们用了个巧妙的法子：让原本横向处理序列的注意力机制转头90度，直接去纵向的深度网络层干活。每个层都通过动态查询向量，主动从前面的层里抓取关键信息，这就让信息流变得可控又精准。为了解决内存的大麻烦，团队还搞了个Block AttnRes方案。把大网络切成一块块来训练，在保证推理速度不慢太多（延迟增幅控制在2%以内）的前提下，把性能给保住了。数据说话，在GPQA-Diamond这种科学推理任务里，新架构直接把准确率往上抬了7.5%。数学和代码生成这两个地方也不落下风，分别涨了3.6%和3.1%。这种泛化能力之所以这么强，全靠底层架构的大改——每层网络都能根据任务需求，随时调整怎么提取信息，把知识表征搞得更高效。创始人在最近的峰会上说：“行业都在盯着模型变多大的时候，我们选择了往底下挖。这就像盖高楼一样，与其老加楼高，不如把柱子重新弄坚固。” 这种“向下深耕”的路子，或许是打破当前Scaling Law瓶颈的一把钥匙。随着论文公开，全球多个实验室都开始照猫画虎搞复现了。一场关于模型底层架构的大革新，看来真的要来了。