国产大模型集体“上新”,不仅让国内竞争更激烈了,也让全球ai圈的火药味更浓了

嘿,最近MiniMax这家公司又搞出个新东西,它的M2.5模型性能直接赶上了国外那些大牌。而且,他们最近的“月更”节奏真的挺稳的,从2月12号字节跳动的Seedance2.0和智谱的GLM-5接连发布,到13号MiniMax自己跟进,春节档简直就是国产大模型的“PK赛”。DeepSeek这边也是动静挺大,听说他们在测试能处理100万个Token的上下文长度了。 这个M2.5真的很厉害,速度提升了37%,从平均31.3分钟干完的活儿现在只要22.8分钟就能搞定。这个耗时甚至比Anthropic在2月初发的Claude Opus 4.6还要快上一点点。别看它快,价格却特别实惠,调用价格只有Claude Opus 4.6的八分之一。在BridgeBench的测试里,M2.5在编程方面的得分只比Opus 4.6低了0.4分。 如果按每秒输出100个Token的标准来算,连续干一个小时才花1美元;要是每秒只跑50个Token,那就更划算了,一个小时只要0.3美元。按照这价格算下来,1万美元能给4个智能体连续干上一年。MiniMax在官网上说,“M2.5提供了经济上几乎无限制地构建和运营Agent的可能性。” 这款模型一上线就火了,OpenRouter上的日调用量超过1000亿Token,直接冲进了前十。海外的反馈也很积极,Menlo Ventures的Deedy Das就说:“MiniMax M2.5超便宜,非常适合编程。” OpenHands还提到,“目前可通过API使用的模型里,本质上是两强争霸,Opus代表最高能力上限,M2.5则以更低成本提供较高能力。”特别是在那种需要长时间运行的任务上,比如从零开始写个应用程序,M2.5表现特别好。 除了编程强,它在Word、PPT、Excel做金融建模这些办公高阶场景里也有很大进步。MiniMax之前找了很多金融、法律和社会科学领域的行家来合作,他们提需求、反馈问题,还直接参与数据构建,把行业里的隐性知识都带进来了。 自从M2发布以来,MiniMax就保持着“每月一更”的节奏,到现在已经连着推了M2、M2.1和M2.5三个版本。在SWE-Bench Verified这个编程领域的大考里,MiniMax的进步速度明显比Claude、GPT和Gemini都快得多。他们把这一切归功于大规模强化学习和Agent RL的框架算法。 这一波国产大模型集体“上新”,不仅让国内的竞争更激烈了,也让全球AI圈的火药味更浓了。