Cursor发布第三代编程模型Composer 2：基准测试领先同类产品并大幅降低使用成本

近一段时间，面向软件工程的智能体编程模型竞争持续升温。开发者的关注点主要集中三上：能否在真实工程任务中稳定完成多步骤操作；能否在长链路任务里不“丢失”关键上下文；以及成本与速度是否可控。Cursor此次发布Composer 2，正是在这些矛盾更集中地暴露出来的背景下，对能力、效率与定价体系的一次系统回应。问题在于，真实软件工程任务往往周期长、交互步骤多，涉及终端操作、依赖管理、调试回滚与多文件协同修改，动作历史很快累积，容易超过模型的上下文窗口。常见做法是依赖外部摘要或滑动窗口来“压缩记忆”，但一旦压缩失真或遗漏关键信息，模型在后续步骤就可能跑偏、重复操作，甚至引入新错误，影响端到端完成率。这也解释了为何行业基准越来越强调“长任务、真环境、可复现”。从原因看，Cursor把提升长任务能力的重点放在训练范式与数据链路的调整上。公司披露，Composer 2是该系列首个进行连续预训练的版本。相比此前更多在既有基础模型上叠加强化学习的路径，连续预训练为后续强化学习提供更稳固的能力底座，有助于在代码理解、工具调用与工程语境一致性上获得更强的通用性。同时，Cursor提出“自总结”训练机制：将摘要步骤纳入强化学习训练闭环，使模型在达到长度阈值时主动暂停，把上下文压缩到约1000个Token，并对“如何压缩、保留什么、舍弃什么”施加全链条奖励信号约束。公司研究报告称，该机制可将压缩错误降低约50%，意在减少长任务中的信息丢失与逻辑断裂。从影响看，Composer 2在Terminal-Bench 2.0上取得61.7%的成绩，超过Claude Opus 4.6的58.0%，显示其在终端环境完成真实任务的能力继续增强；，与更高分模型仍有差距，也反映出行业在“顶尖能力”与“可用性、性价比”之间仍处于动态博弈。更受关注的是成本结构变化：Composer 2标准模式的输入价格约为每百万Token 0.5美元、输出约2.5美元，并提供默认的“快速模式”，价格为标准模式的3倍，但智能程度保持一致，主要面向对延迟更敏感的场景。与Claude Opus 4.6、GPT-5.4等产品相比，Cursor进一步下探价格带，有望降低中小团队在复杂工程任务中的试用门槛，推动更广泛的工具链集成与规模化部署。对行业而言，低成本与更快迭代可能带来两点变化：其一，模型选择从“单一最强”转向“按需组合”。Cursor强调产品支持多模型切换与自动模式，可在智能、速度与成本之间动态取舍，这与企业在不同任务上分层用模的趋势一致；其二，评估标准将更看重“长链路可靠性”，也就是在真实工程流程中持续保持上下文一致、减少返工与错误传播。换句话说，模型不仅要会写代码，还要能在工具与环境约束下持续推进任务。对策层面，企业与开发者在引入此类模型时仍需保持工程化审慎：一是建立覆盖编码、依赖、构建、测试、部署的端到端评测流程，避免只凭单一分数做决策；二是为长任务建立可追溯的日志与回放机制，便于定位由摘要压缩、工具调用或环境差异引发的偏差；三是在成本优势显现的同时，设定权限、密钥与供应链安全边界，防范终端操作带来的误删、泄露或引入风险依赖；四是将“自动模式”与企业内部规则结合，明确何时优先速度、何时优先准确，形成可解释、可审计的用模策略。前景来看，Composer 2折射出编程模型竞争正从单纯堆参数、拼基准，转向围绕“长任务记忆管理”“训练闭环优化”“价格与延迟的产品化设计”的综合较量。随着模型在终端与工程环境中承担更多“连续行动”的角色，谁能以更低成本提供更稳定的多步骤完成能力，谁就更可能在开发者生态与企业应用中获得更大份额。下一阶段，长任务可靠性、摘要压缩可控性，以及与真实工具链的深度耦合，或将成为决定产品分化的关键变量。

Composer 2的发布既是Cursor的一次重要产品升级，也折射出人工智能从实验走向落地的行业趋势；在强调能力提升的同时兼顾成本与效率，这种更贴近工程现实的路线，可能为行业提供新的思路。随着各领域智能化需求持续增长，如何在细分市场建立可持续的竞争力，将成为有关企业需要持续回答的问题。