国产大模型集体“上新”，不仅让国内竞争更激烈了，也让全球ai圈的火药味更浓了

嘿，最近MiniMax这家公司又搞出个新东西，它的M2.5模型性能直接赶上了国外那些大牌。而且，他们最近的“月更”节奏真的挺稳的，从2月12号字节跳动的Seedance2.0和智谱的GLM-5接连发布，到13号MiniMax自己跟进，春节档简直就是国产大模型的“PK赛”。DeepSeek这边也是动静挺大，听说他们在测试能处理100万个Token的上下文长度了。这个M2.5真的很厉害，速度提升了37%，从平均31.3分钟干完的活儿现在只要22.8分钟就能搞定。这个耗时甚至比Anthropic在2月初发的Claude Opus 4.6还要快上一点点。别看它快，价格却特别实惠，调用价格只有Claude Opus 4.6的八分之一。在BridgeBench的测试里，M2.5在编程方面的得分只比Opus 4.6低了0.4分。如果按每秒输出100个Token的标准来算，连续干一个小时才花1美元；要是每秒只跑50个Token，那就更划算了，一个小时只要0.3美元。按照这价格算下来，1万美元能给4个智能体连续干上一年。MiniMax在官网上说，“M2.5提供了经济上几乎无限制地构建和运营Agent的可能性。” 这款模型一上线就火了，OpenRouter上的日调用量超过1000亿Token，直接冲进了前十。海外的反馈也很积极，Menlo Ventures的Deedy Das就说：“MiniMax M2.5超便宜，非常适合编程。” OpenHands还提到，“目前可通过API使用的模型里，本质上是两强争霸，Opus代表最高能力上限，M2.5则以更低成本提供较高能力。”特别是在那种需要长时间运行的任务上，比如从零开始写个应用程序，M2.5表现特别好。除了编程强，它在Word、PPT、Excel做金融建模这些办公高阶场景里也有很大进步。MiniMax之前找了很多金融、法律和社会科学领域的行家来合作，他们提需求、反馈问题，还直接参与数据构建，把行业里的隐性知识都带进来了。自从M2发布以来，MiniMax就保持着“每月一更”的节奏，到现在已经连着推了M2、M2.1和M2.5三个版本。在SWE-Bench Verified这个编程领域的大考里，MiniMax的进步速度明显比Claude、GPT和Gemini都快得多。他们把这一切归功于大规模强化学习和Agent RL的框架算法。这一波国产大模型集体“上新”，不仅让国内的竞争更激烈了，也让全球AI圈的火药味更浓了。