蚂蚁集团发布新一代开源大模型 技术创新破解算力消耗难题

(问题)大模型能力不断提升的同时,算力与资源消耗的上限越来越明显。近几年,行业一方面追求更强的推理、编程与智能体能力,另一方面也受到训练与推理成本上升、显存与带宽受限、能耗压力增大等约束。尤其长上下文应用快速扩展的背景下,如何在“更强能力”和“更高效率”之间找到平衡,正成为大模型规模化落地的关键问题。 (原因)此矛盾的核心之一,在于主流注意力机制在长序列场景下带来的计算与存储开销。传统注意力机制能够捕捉全局依赖关系——表达能力强——但计算量会随序列长度快速增长,对显存、带宽与算力要求更高。为降低成本,线性注意力等方案被广泛研究,通过重构计算路径提升效率,但在精细对齐、复杂依赖和关键信息检索等任务中,单一线性机制有时难以同时兼顾效果与稳定性。因此,“混合”思路逐渐成为重要方向:在同一网络内分层采用不同注意力形式,在性能与效率之间实现更可控的折中。 (影响)基于此,蚂蚁集团inclusionAI团队开源的Ling-2.5-1T(即时模型)与Ring-2.5-1T(思考模型)受到业内关注。团队表示,两款模型的重点不在于单纯扩大参数规模,而在于共享“Ling 2.5”混合线性注意力架构:在不同层引入差异化注意力计算路径,以降低长文本生成与长程推理中的访存压力,并提升生成速度。根据团队披露的数据,新架构在典型长文本场景下可将访存规模压缩至传统架构的约十分之一,生成吞吐提升至约三倍,从而在一定程度上缓解“上下文越长、成本越高”的痛点。 在能力评测上,团队公布的多项基准测试结果显示,Ling-2.5-1T在推理、指令遵循、长上下文等测试中表现突出;Ring-2.5-1T面向更高强度的推理需求,团队称其在数学竞赛类评测中达到较高水平,并在开启“重度思考”模式后,在部分数学推理与代码生成基准上取得领先成绩。业内人士认为,若涉及的结果能在更广泛的第三方评测与真实业务场景中得到验证,将有助于推动“高性能、低成本”的大模型路线加速成熟。 (对策)从技术路径看,混合线性注意力并非把两种机制简单拼在一起,而是对训练稳定性、层间分工、比例配置与工程实现提出更系统的要求。在超大规模预训练中,数值稳定与收敛质量直接影响模型能力上限;同时,不同任务对“全局对齐”和“高效记忆”的侧重点不同,模型需要可调的结构策略与训练配方。此次开源的意义之一,是为行业提供可复用的工程样本与对照基线,便于研究机构与开发者围绕架构设计、长上下文能力、推理策略与部署优化进行验证和改进,降低试错成本。 (前景)随着大模型从“能用”走向“好用、用得起”,效率将与能力同样重要。面向政务服务、金融风控、智能客服、研发助手,以及端侧与边缘部署等场景,低访存与高吞吐不仅意味着成本下降,也带来更稳定的在线时延、更高的并发能力和更可持续的算力使用方式。可以预期,围绕注意力机制的架构创新仍将持续推进,混合路线、长上下文优化与推理时计算分配等方向可能形成叠加效应,推动大模型在复杂任务与真实生产环境中实现更高性价比的落地。

大模型的发展不应只靠“堆参数”,而应在资源约束下追求更优的综合表现;蚂蚁集团此次发布的混合线性注意力架构模型,说明了此思路在工程上的落地:通过架构优化,在尽量保持能力的同时显著降低资源消耗。这为大模型走向更高效率、更可负担的应用形态提供了参考。随着更多企业和研究机构在这一方向持续探索,效率瓶颈有望深入被突破,为产业的可持续发展打下更扎实的基础。