国产大模型公司MiniMax在3月18日把新一代模型M2.7给推出来了,还第一次展示了什么叫“模型自我进化”。这次更新没在性能提升上死磕,反而提出了个大方向,就是让模型自己参与到训练和优化里去。为了实现这个目标,公司专门给M2.7搞了个Agent Harness系统,把数据处理、实验设计这些活儿都给揽了下来。虽然现在它还没法完全取代人,但在一些研发场景里已经能把30%到50%的工作量给抢过来了。内部测试也显示,这个新系统在内部评测集上把效果给提升了大约30%。 关于具体怎么运作的,MiniMax告诉我们说关键是给模型搭建了一个以Agent为核心的自我进化体系。在这套体系里,模型不光要负责生成和推理,还要参与到从数据准备到代码修复的全套流程里。比如说在强化学习的实验中,这个Agent能跟研究员一起讨论研究想法,还能帮着做文献调研和任务执行。要是遇到了Bug或者指标不太理想,它也能自动分析日志、排查问题并调整策略。官方数据表明,这种协作方式确实大大降低了人工介入的频率。 除了单干之外,M2.7还在“多智能体协作”上下了功夫。这种模式要求模型同时扮演多个角色,进行对抗性推理和协同决策。这对模型的逻辑一致性和人设保持提出了很高的要求。比如在Office文档处理方面,它在GDPval-AA上的ELO得分达到了1495分,成了开源项目中的最高分。 不光是办公场景厉害,M2.7在真实工程测试中也表现得很强。它在SWE-bench Pro中拿下了56.22%的成绩,跟国际一流水平很接近;在VIBE-Pro和Terminal Bench 2这些测试里也都有不错的表现。这说明它已经支持端到端的项目交付了。 当然啦,MiniMax还在探索Agent的“非生产力边界”。通过增强模型的情感交互能力,它开始变得更会聊天了。这也支撑起了公司最新推出的互动娱乐产品OpenRoom。在这个产品里,用户可以在沉浸式Web环境里跟AI互动,这就像是把对话当成了界面来使用。 从整个行业来看,大家现在都在看“执行系统能力”。像OpenClaw这样的框架火起来之后,AI竞争的重心就变了。M2.7的发布意味着国内厂商正在尝试定义新的技术路线——用Agent来驱动自我进化。有专家说要是这种能力再成熟点,以后AI系统就有可能实现从数据构建到评测优化的全流程自动化。到时候研发周期肯定会缩短很多,产业的成本结构也会被重塑。 目前M2.7已经在MiniMax Agent和开放平台上正式上线了。接下来就看开发者和企业用户怎么用了。它在真实场景中的表现如何,这可是检验“自我进化模型”有没有商业价值的关键一环。