最近国内科研团队有个新动态,他们在Hugging Face和arXiv上发布了个新的神经网络架构,叫mHC,主打提升大模型训练的稳定性和效率。之前传统的神经网络参数一多,训练时信号就容易乱套,甚至崩溃。为了解决这个问题,深度求索的研究团队搞了个创新设计,在原有的HC架构上加上了流形约束。他们用Sinkhorn-Knopp算法,把残差映射矩阵变成了双随机矩阵,就像给信号传播安了个稳压器,保证信号不乱走。 实验数据很有说服力,有个模型参数规模高达270亿。传统方法到了大概1.2万步的时候,信号波动直接放大了3000倍崩溃了。而mHC这个架构波动控制在1.6倍以内。在性能上,用它训练的模型在BBH数据集和DROP数据集上的表现都比传统方法好2%以上。更绝的是,在扩展残差通道4倍的情况下,训练时间开销才增加6.7%,效率非常高。 这个团队有19个人,大部分是清华高等研究院的人,解振达、韦毅轩、曹焕奇这些核心成员都很厉害。创始人梁文锋也在署名里。2024年以来,深度求索在国际上已经发了23篇论文,他署名的就有11篇。这次的mHC架构不仅解决了大模型的问题,还为产业落地提供了可能。在AI竞争越来越激烈的今天,这种原创性的研究能帮咱们在全球创新格局里站稳脚跟。