中关村论坛聚焦开源大模型新路径:提升Token效率与多智能体协作加速突破智能上限

问题:大模型发展进入“效率瓶颈期” 算力持续增长、应用快速扩张的同时,大模型能力提升依然高度依赖训练规模和推理成本。与早期“更大参数、更多数据”带来的明显增益相比,行业如今更常遇到训练能耗攀升、有效数据边际减少、复杂任务推理时延增加等约束。如何在能源与数据更有限的条件下继续提升能力,正成为下一阶段竞争的关键。 原因:数据稀缺与工程化落地倒逼技术路线调整 与会发言指出,智能进步的核心在于把更多能源高效转化为可用能力,但单纯“堆算力”难以长期持续。一上,互联网可直接利用的高质量数据并非取之不尽,靠数据规模继续外延扩张的空间收窄;另一上,产业落地更看重成本、稳定性和可控性,研发重心也因此从偏学术探索转向工程化验证与规模化迭代。此背景下,提高训练与推理效率、提升单位Token的学习收益,成为更现实的技术选择。 影响:Token效率、长上下文与多智能体协作或重塑能力边界 发言将“Token效率”概括为“同样数据能学到多少智能”,强调通过更优网络结构与优化方法等手段,即便数据增量受限,也仍可能继续挖掘能力上限。同时,长上下文的重要性不断上升:当模型能在更长输入范围内保持更低损失,就更有机会完成跨度更长、链条更复杂的任务,从而拓展应用的深度与广度。 值得关注的是,多智能体协作被视为应对复杂任务的一个新变量。通过多个智能体并行分工协作,可在一定程度上对冲任务复杂度上升带来的时间成本。对应的案例指出:单体执行常出现“复杂度—时延”快速抬升,而在多智能体并行条件下,整体执行时延的增长更为平缓。这一思路对软件工程、科研助理、企业流程自动化等需要多环节拆解与多角色协同的场景,具有较明确的应用指向。 对策:以开源促迭代,以低成本验证促标准更新 在底层技术上,相关团队开源“注意力残差”架构思路,将残差网络的理念迁移到注意力机制的深度组织方式上,使模型各层计算更充分融合前序信息。据称,这一方法只带来较小的额外成本,却可改善训练效果。更重要的是,开源降低了前沿技术的获取门槛,使研究者、企业与开发者能在统一底座上更快复现、对比与改进,从而缩短从论文到产品、从实验到部署的周期。 在产业层面,开源模型在评测环节的作用也在上升。随着开源模型被用于芯片与系统的性能对标,评测标准从封闭走向开放,既有助于减少“各说各话”的指标分歧,也推动软硬件协同优化,促使算子、框架、编译与系统工程持续迭代。对我国而言,推动高质量开源与开放评测体系建设,有助于凝聚生态、促进产学研协同,并为产业链上下游提供可复用的技术底座。 前景:研发范式或转向“模型参与研发”的加速循环 对未来两到三年的判断认为,研发方式将继续演进:从早期依赖天然数据与人工标注,到强化学习与高质量任务筛选,再到由模型参与合成新任务、新环境,甚至辅助设计奖励与探索架构。若这一趋势加速落地,研发有望形成更强的自动化闭环:模型生成训练需求,系统快速验证并回流改进,从而提高迭代频率与创新密度。另外,数据合规、安全可控、能耗约束与评测透明度等问题也会更加突出,需要在推进技术创新的同时完善治理与标准体系。

当算力竞赛逐渐逼近物理与成本边界,人工智能正在从“堆规模”转向“提效率”的新阶段。杨植麟团队提出的效率路径为技术突破提供了新的思路,其对开源生态的倡导也反映了面向全球协作的开放姿态。相比单纯的算力竞速,这场以效率为核心的变革,或许更可能影响未来智能时代的竞争格局。