虽然算力和数据是支撑大模型的关键要素,但怎么才能让它们发挥出最大价值?月之暗面(Moonshot AI)给出了新答案。2015年以来被广泛采用的传统残差连接,如今被Kimi团队彻底重构了。通过《Attention Residuals》这份技术报告,他们把那种把网络中的信息传递搞成RNN遗忘机制的设计给彻底推翻了。他们用了个巧妙的法子:让原本横向处理序列的注意力机制转头90度,直接去纵向的深度网络层干活。每个层都通过动态查询向量,主动从前面的层里抓取关键信息,这就让信息流变得可控又精准。 为了解决内存的大麻烦,团队还搞了个Block AttnRes方案。把大网络切成一块块来训练,在保证推理速度不慢太多(延迟增幅控制在2%以内)的前提下,把性能给保住了。数据说话,在GPQA-Diamond这种科学推理任务里,新架构直接把准确率往上抬了7.5%。数学和代码生成这两个地方也不落下风,分别涨了3.6%和3.1%。这种泛化能力之所以这么强,全靠底层架构的大改——每层网络都能根据任务需求,随时调整怎么提取信息,把知识表征搞得更高效。 创始人在最近的峰会上说:“行业都在盯着模型变多大的时候,我们选择了往底下挖。这就像盖高楼一样,与其老加楼高,不如把柱子重新弄坚固。” 这种“向下深耕”的路子,或许是打破当前Scaling Law瓶颈的一把钥匙。随着论文公开,全球多个实验室都开始照猫画虎搞复现了。一场关于模型底层架构的大革新,看来真的要来了。