小米发布全模态基座模型,语音全给融合到了一块儿

小米这回搞了个大事儿,3月19日正式发布了一个面向Agent时代的全模态基座模型Xiaomi MiMo-V2-Omni。这个模型从底层做起,把文本、视觉、语音全给融合到了一块儿。咱们平时用的智能体交互啊、工具调用啊,它全都能直接用。最厉害的是它的音频理解能力,超过了Gemini 3 Pro,图像推理也快赶上Claude Opus了。至于视频分析嘛,还有未来预测的本事。现在开放给大家用,价格特别便宜,输入只要0.4元就能换百万tokens,输出也只要2元,性价比那是相当高。 别看现在发布了,其实早就在测试阶段了。当时小米偷偷把一个早期版本挂上了OpenRouter,用“Healer Alpha”当代号。上线没多久调用量蹭蹭往上涨,在OpenClaw的PinchBench榜单上居然拿了第一。官方是这么说的,这模型在音频理解上能处理环境声分类、多说话人分离这些难题,就连超10小时的长音频也能搞定。在看图方面,多学科视觉推理和复杂图表分析的成绩更是直接干翻了Claude Opus 4.6,跟Gemini 3 Pro这种闭源模型打个平手都不在话下。 视频这块儿也挺牛,它能直接接收音视频一起输进去,还能根据当下的场景去预测未来会发生啥。智能体能力这块更是没得说,跟真实数字环境玩得风生水起。要是在Browser Use的场景里用上OpenClaw框架,它就能像真人一样操控浏览器,去搜信息、比价、跟客服聊天甚至下单购物。跟金山办公合作了之后接入WPS Office,给它下指令就能自动生成Word文档、结构化Excel还有排版漂亮的PDF和PPT。 这次小米联合了OpenClaw、OpenCode、KiloCode、Blackbox还有Cline这五个Agent开发框架团队,给全球开发者提供了为期一周的限时免费接口支持。虽然它现在挺厉害的,但咱也得说说不足。听说这次还是个Beta版本嘛,有些地方还没打磨到极致。比如处理特别长的内容时还是有点吃力,有时候回答也容易重复自己或者答非所问。不过这都不打紧啦,毕竟这东西才刚出来没多久嘛。 未来要是能在处理逻辑上再精细点、在上下文的理解上再深一点,那简直就是神器了。这时候就得靠社区的小伙伴们一起努力了!