ai 竞争越来越激烈，深度求索在全球创新格局里站稳脚跟

最近国内科研团队有个新动态，他们在Hugging Face和arXiv上发布了个新的神经网络架构，叫mHC，主打提升大模型训练的稳定性和效率。之前传统的神经网络参数一多，训练时信号就容易乱套，甚至崩溃。为了解决这个问题，深度求索的研究团队搞了个创新设计，在原有的HC架构上加上了流形约束。他们用Sinkhorn-Knopp算法，把残差映射矩阵变成了双随机矩阵，就像给信号传播安了个稳压器，保证信号不乱走。实验数据很有说服力，有个模型参数规模高达270亿。传统方法到了大概1.2万步的时候，信号波动直接放大了3000倍崩溃了。而mHC这个架构波动控制在1.6倍以内。在性能上，用它训练的模型在BBH数据集和DROP数据集上的表现都比传统方法好2%以上。更绝的是，在扩展残差通道4倍的情况下，训练时间开销才增加6.7%，效率非常高。这个团队有19个人，大部分是清华高等研究院的人，解振达、韦毅轩、曹焕奇这些核心成员都很厉害。创始人梁文锋也在署名里。2024年以来，深度求索在国际上已经发了23篇论文，他署名的就有11篇。这次的mHC架构不仅解决了大模型的问题，还为产业落地提供了可能。在AI竞争越来越激烈的今天，这种原创性的研究能帮咱们在全球创新格局里站稳脚跟。