小米发布全模态基座模型，语音全给融合到了一块儿

小米这回搞了个大事儿，3月19日正式发布了一个面向Agent时代的全模态基座模型Xiaomi MiMo-V2-Omni。这个模型从底层做起，把文本、视觉、语音全给融合到了一块儿。咱们平时用的智能体交互啊、工具调用啊，它全都能直接用。最厉害的是它的音频理解能力，超过了Gemini 3 Pro，图像推理也快赶上Claude Opus了。至于视频分析嘛，还有未来预测的本事。现在开放给大家用，价格特别便宜，输入只要0.4元就能换百万tokens，输出也只要2元，性价比那是相当高。别看现在发布了，其实早就在测试阶段了。当时小米偷偷把一个早期版本挂上了OpenRouter，用“Healer Alpha”当代号。上线没多久调用量蹭蹭往上涨，在OpenClaw的PinchBench榜单上居然拿了第一。官方是这么说的，这模型在音频理解上能处理环境声分类、多说话人分离这些难题，就连超10小时的长音频也能搞定。在看图方面，多学科视觉推理和复杂图表分析的成绩更是直接干翻了Claude Opus 4.6，跟Gemini 3 Pro这种闭源模型打个平手都不在话下。视频这块儿也挺牛，它能直接接收音视频一起输进去，还能根据当下的场景去预测未来会发生啥。智能体能力这块更是没得说，跟真实数字环境玩得风生水起。要是在Browser Use的场景里用上OpenClaw框架，它就能像真人一样操控浏览器，去搜信息、比价、跟客服聊天甚至下单购物。跟金山办公合作了之后接入WPS Office，给它下指令就能自动生成Word文档、结构化Excel还有排版漂亮的PDF和PPT。这次小米联合了OpenClaw、OpenCode、KiloCode、Blackbox还有Cline这五个Agent开发框架团队，给全球开发者提供了为期一周的限时免费接口支持。虽然它现在挺厉害的，但咱也得说说不足。听说这次还是个Beta版本嘛，有些地方还没打磨到极致。比如处理特别长的内容时还是有点吃力，有时候回答也容易重复自己或者答非所问。不过这都不打紧啦，毕竟这东西才刚出来没多久嘛。未来要是能在处理逻辑上再精细点、在上下文的理解上再深一点，那简直就是神器了。这时候就得靠社区的小伙伴们一起努力了！