美团发布新一代开源智能模型工具调用能力达国际领先水平

当前，大型语言模型在复杂任务处理中对工具调用能力的依赖日益增加。

如何在开源模型中实现高效的工具交互推理，成为行业面临的关键课题。

美团日前推出的LongCat-Flash-Thinking-2601模型，正是针对这一需求的创新探索。

据了解，该模型是对先前LongCat-Flash-Thinking版本的重要升级。

在智能体搜索、工具调用、工具交互推理等核心评测基准上，新模型已达到开源模型领域的先进水平。

特别值得注意的是，在涉及工具调用的随机复杂任务测试中，该模型性能表现已超越Claude-Opus-4.5-Thinking等商用高端模型，这标志着开源模型在实际应用能力上的显著进步。

从技术特性看，LongCat-Flash-Thinking-2601最大的创新在于其"重思考"模式设计。

该模式允许模型同时启动8个并行推理线程，相当于让模型的"大脑"同时运转多个思考过程，从而在处理复杂问题时能够更加高效地进行多路径探索和验证。

这种多线程并行思考机制，显著提升了模型在复杂推理场景中的表现。

工具适配成本问题一直困扰着AI应用的规模化部署。

传统方案需要对新工具进行专门的训练适配，这在实际场景中往往耗时耗力。

美团新模型通过提升通用工具调用能力，可大幅度降低真实场景下新工具的适配训练成本，使企业能够以更低的成本快速集成新功能，加速AI应用的迭代更新。

美团还在龙猫官网提供了该模型的免费体验入口，用户可以直接在线测试模型的推理能力和工具调用表现。

这一开放举措有助于推动行业对模型性能的客观认识，同时也为开发者提供了便利的评估途径。

从产业层面看，该模型的开源发布具有示范意义。

它表明国内企业在通用大模型基础研究上的投入正在取得成果，开源社区的参与也有望推动模型能力的进一步完善。

与此同时，工具调用能力的突破为智能体、自主系统等应用形态的发展奠定了更坚实的基础。

值得关注的是，模型在工具交互推理中的优势，对于构建更加智能化的应用系统具有直接推动作用。

无论是智能客服、知识检索、自动化工作流等场景，都可能从该模型的能力提升中获益。

开源模型能力的演进，最终要接受真实场景的检验。

能否在复杂任务中稳定调用工具、在不确定环境中持续纠错并完成闭环，将决定智能体应用从“可展示”走向“可依赖”的速度。

面向下一阶段，围绕标准、评测、安全与工程治理的系统建设，将与模型能力提升同等重要，亦是推动数字化应用走深走实的关键支点。

美团发布新一代开源智能模型 工具调用能力达国际领先水平