小米发布全模态基座模型MiMo-V2-Omni 多维度能力比肩国际先进水平

问题——智能体应用加速落地，对“看得见、听得懂、能动手”的基础能力提出更高要求。

随着大模型从问答与内容生成走向执行任务、操作软件和协同办公，单一文本能力已难覆盖真实世界场景：用户需要模型理解环境声音、看懂图表与界面、处理长时序音视频，并能调用工具完成检索、比价、表格处理、文档生成等“闭环任务”。

由此，全模态能力与可执行能力的融合，正在成为新一轮产业竞争焦点。

原因——需求侧牵引与供给侧迭代共同推动全模态基座升级。

一方面，移动终端、可穿戴设备、智能家居与车载系统天然产生图像、语音、视频等多源数据，促使模型必须具备跨模态理解与推理能力；另一方面，开发者对低成本、高吞吐、长上下文接口的需求明显上升，促使厂商在算力效率、推理成本与产品化能力上持续优化。

小米此次发布MiMo-V2-Omni，强调从底层构建文本、视觉、语音融合架构，并将“感知”与“行动”绑定，指向的正是智能体场景中“理解—决策—执行”的一体化能力。

影响——有望降低智能体应用门槛，带动办公与浏览器等高频场景创新。

小米介绍，MiMo-V2-Omni原生支持多模态感知、工具调用、函数执行及GUI操作，并在音频理解、图像推理与视频分析等评测中取得较好结果：在音频任务上覆盖环境声分类、多说话人分离、音频—视觉联合推理及长音频理解；在视觉侧强调多学科推理与复杂图表分析；在视频侧支持原生音视频联合输入，并具备一定的情境理解与未来推断能力。

在智能体能力方面，模型可在真实数字环境交互类评测中达到较高水平，并可用于浏览器操控、信息检索、比价、客服交互及下单等任务。

与此同时，小米与金山办公合作接入WPS Office，使模型可按指令生成Word文档、结构化表格、排版规范的PDF与PPT，指向办公自动化的更深层集成。

对行业而言，若多模态与工具执行能力稳定可用，将加速从“模型能力展示”走向“业务流程重构”。

对策——以开放接口与生态协作扩大覆盖面，同时强化安全与合规边界。

小米公布MiMo-V2-Omni已开放API服务，支持256K上下文长度，并给出输入0.4元/百万tokens、输出2元/百万tokens的计费标准；同时联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等智能体开发框架团队，为全球开发者提供为期一周的限时免费接口支持。

开放与协作有利于快速积累应用反馈、完善工具链与评测体系，但智能体“能操作”的能力也意味着更高的安全要求：包括对敏感信息的识别与脱敏、对高风险指令的拦截、对外部工具调用的权限管理、对可追溯日志与审计机制的建设等。

只有在可靠性、可控性与合规性同步推进的前提下，智能体能力才能真正进入规模化应用阶段。

前景——全模态与智能体将成为端云协同的重要抓手，竞争将从单点能力转向系统能力。

未来一段时间，行业比拼的不仅是单项指标，更是“模型—工具—应用—数据反馈”的闭环效率。

随着多模态输入日益普及、办公与电商等场景持续数字化，具备长上下文、低成本与强执行能力的基座模型，将更容易沉淀为平台能力，带动开发者在垂直行业形成差异化应用。

同时，智能终端生态与软件生态的深度融合，将为多模态模型提供更丰富的落地入口，也会倒逼厂商在推理效率、边缘部署、隐私保护与标准化接口上持续投入。

从单模态到多模态的技术跃迁，正推动人工智能向更自然、更智能的方向发展。

小米此次技术突破不仅展现了企业的研发实力，也为国产大模型生态建设提供了新动能。

未来，随着技术落地应用的深入，多模态交互或将成为智能时代的基础设施，为产业升级注入新活力。