从“问答式”到“多通道并行”交互加速演进专家称两三年内或现关键突破

问题——从“问答式”到“自然式”交互的瓶颈日益凸显。

当前，不少智能终端仍以语音、触控为主，交互逻辑多依赖“一问一答”的回合制方式。

当智能能力进入手机、汽车及机器人、可穿戴设备等更复杂的物理环境后，这种模式在多任务并行、连续感知与上下文衔接上暴露不足：一方面，用户需要频繁中断当前操作以“唤起—提问—等待—确认”；另一方面，系统对环境变化、用户意图的理解常出现断点，影响任务完成效率与体验稳定性。

业内认为，这一短板正在成为智能能力走向现实世界的关键制约因素。

原因——多通道感知与端侧约束形成“双重门槛”。

从人类行为看，听、说、看可并行进行，信息获取与表达互不必然冲突。

但在现有不少终端交互中，感知链路往往分散，输入与输出不能自然协同，难以形成持续的情境理解。

面壁智能联合创始人兼首席科学家刘知远指出，要让机器人和智能终端更接近人的交互方式，关键在于提升模型的多通道并行与自然交互能力。

李大海则从产业落地角度强调，真正的变化不会一步到位，受限于端侧算力、能耗与成本，多模态能力越丰富，对终端资源占用越高，落地节奏也将因设备形态而不同。

同时，纯云端方案难以绕开数据安全与隐私合规等现实要求，推动端云协同成为重要方向。

影响——终端智能从“会回答”走向“会办事”，产业竞争焦点随之迁移。

随着智能体能力进入手机等消费级终端，行业正在从“生成内容”竞争转向“执行任务”竞争：系统不仅要能理解指令，还要能在多应用、多步骤场景中稳定完成操作闭环。

李大海以行业手机场景为例指出，即便依托业内领先模型，复杂任务的完成率与可用性仍有提升空间，意味着体验层面的“临门一脚”仍需模型能力、工程化与产品设计共同突破。

对汽车、机器人等场景而言，因电源与算力条件相对宽裕、传感器更丰富，全模态交互与“环境在环”的能力更容易形成优势，或率先带动新一轮应用创新。

对策——走通“端云协同+隐私安全+低功耗”的工程路径，推动交互范式迭代。

业内普遍认为，全模态并非对语音、视觉等能力的简单叠加，而是交互范式从“被动响应”向“持续感知、主动协同”的转变。

为此，一是要提升端侧模型效率，在有限算力下实现更强的实时推理与多通道处理，降低延迟与功耗；二是要完善端云分工，通过云端能力支撑复杂推理与知识更新，通过端侧能力保障实时响应与隐私安全；三是要强化数据治理与合规设计，特别是在“设备聆听与观看真实世界”带来的隐私边界问题上，需以最小化采集、可控授权与可解释机制为底线，提升用户信任；四是要在产品层面构建可验证、可回退的执行链路，提升复杂任务的稳定性与安全性，避免“能做但不可靠”。

前景——两三年或迎能力跃迁窗口，具身智能关键在“脑”而非“体”。

在受访者看来，具身智能并非孤立赛道，而是对模型交互能力、环境理解与任务执行提出更高要求的应用集合。

刘知远研判，具身智能在能力层面的快速迭代或许并不遥远，未来两三年可能出现明显进展。

李大海则强调，当前具身领域的主要瓶颈不在机械本体，而在智能“大脑”的泛化能力与交互能力。

一旦模型在全模态理解、持续上下文、任务规划与安全执行等方面实现突破，产业有望迎来新一轮集中式升级，应用也将从单点功能走向系统性协作，形成从手机到汽车、从家庭到工业的多场景扩展。

人机交互技术的革新不仅关乎设备性能提升，更是人工智能融入现实世界的关键桥梁。

在这场由算法革命驱动的产业升级中，中国企业能否抓住全模态模型的发展机遇，将直接影响智能终端产业的全球竞争格局。

当技术曙光初现之时，更需要保持战略定力，在创新突破与风险防控间把握平衡，方能真正释放智能时代的变革潜力。

从“问答式”到“多通道并行”交互加速演进 专家称两三年内或现关键突破

从“问答式”到“多通道并行”交互加速演进专家称两三年内或现关键突破