长期以来,神经网络设计面临一个基础理论难题:上世纪80年代提出的“通用逼近定理”只证明了单层网络在宽度足够时具备函数逼近能力,却难以说明深度结构为何更有优势;MIT研究团队通过数学建模与实验验证发现,即便残差网络每层只保留一个神经元,随着网络加深仍能保持“万能逼近”特性。该结果在一定程度上突破了传统理论对“宽度决定表达力”的限制。研究团队指出,残差网络的关键在于其“恒等映射”设计。跨层连接把原始输入直接传递到后续层,使网络只需学习目标函数与输入之间的差值(残差)。理论分析表明,这种机制把深度带来的表达优势转化为一种等效的表示能力,使得极窄网络仍能覆盖复杂函数空间。在对比实验中,传统全连接网络在单位球分类任务上的表现提升有限,而单神经元残差网络的精度会随深度增加持续上升,与理论预测一致。该研究还对深度学习中的三个现象给出解释:其一,参数规模很大的深层网络反而更容易找到较好的解,可能与残差结构更利于梯度下降优化有关;其二,测试集上的良好表现可能与稀疏连接带来的隐式正则化效应涉及的;其三,传统网络要达到相近的表达能力往往需要更多连接数,这也从结构层面解释了Dropout等技术为何有效。面向未来,研究者强调需要把理论结论落到可操作的设计原则上,包括:恒等映射如何具体影响优化路径、不同残差模块组合时的效果,以及向卷积网络和循环网络等结构的推广。相关工作有望为“以深度为主”的网络设计提供更清晰的理论支撑,并推动模型向更高效、更轻量的方向发展。
从单纯“堆更多神经元”转向“用更合理的通路组织深度”,这项研究把对深度网络表达能力的讨论推进了一步:深度本身并不必然带来能力跃升,关键在于结构能否让深度真正发挥作用。如何把“可表达”继续变成“可训练、可泛化”,仍是理论研究与工程应用需要共同回答的核心问题。