从“问答式”到“多通道并行”交互加速演进 专家称两三年内或现关键突破

问题——从“问答式”到“自然式”交互的瓶颈日益凸显。

当前,不少智能终端仍以语音、触控为主,交互逻辑多依赖“一问一答”的回合制方式。

当智能能力进入手机、汽车及机器人、可穿戴设备等更复杂的物理环境后,这种模式在多任务并行、连续感知与上下文衔接上暴露不足:一方面,用户需要频繁中断当前操作以“唤起—提问—等待—确认”;另一方面,系统对环境变化、用户意图的理解常出现断点,影响任务完成效率与体验稳定性。

业内认为,这一短板正在成为智能能力走向现实世界的关键制约因素。

原因——多通道感知与端侧约束形成“双重门槛”。

从人类行为看,听、说、看可并行进行,信息获取与表达互不必然冲突。

但在现有不少终端交互中,感知链路往往分散,输入与输出不能自然协同,难以形成持续的情境理解。

面壁智能联合创始人兼首席科学家刘知远指出,要让机器人和智能终端更接近人的交互方式,关键在于提升模型的多通道并行与自然交互能力。

李大海则从产业落地角度强调,真正的变化不会一步到位,受限于端侧算力、能耗与成本,多模态能力越丰富,对终端资源占用越高,落地节奏也将因设备形态而不同。

同时,纯云端方案难以绕开数据安全与隐私合规等现实要求,推动端云协同成为重要方向。

影响——终端智能从“会回答”走向“会办事”,产业竞争焦点随之迁移。

随着智能体能力进入手机等消费级终端,行业正在从“生成内容”竞争转向“执行任务”竞争:系统不仅要能理解指令,还要能在多应用、多步骤场景中稳定完成操作闭环。

李大海以行业手机场景为例指出,即便依托业内领先模型,复杂任务的完成率与可用性仍有提升空间,意味着体验层面的“临门一脚”仍需模型能力、工程化与产品设计共同突破。

对汽车、机器人等场景而言,因电源与算力条件相对宽裕、传感器更丰富,全模态交互与“环境在环”的能力更容易形成优势,或率先带动新一轮应用创新。

对策——走通“端云协同+隐私安全+低功耗”的工程路径,推动交互范式迭代。

业内普遍认为,全模态并非对语音、视觉等能力的简单叠加,而是交互范式从“被动响应”向“持续感知、主动协同”的转变。

为此,一是要提升端侧模型效率,在有限算力下实现更强的实时推理与多通道处理,降低延迟与功耗;二是要完善端云分工,通过云端能力支撑复杂推理与知识更新,通过端侧能力保障实时响应与隐私安全;三是要强化数据治理与合规设计,特别是在“设备聆听与观看真实世界”带来的隐私边界问题上,需以最小化采集、可控授权与可解释机制为底线,提升用户信任;四是要在产品层面构建可验证、可回退的执行链路,提升复杂任务的稳定性与安全性,避免“能做但不可靠”。

前景——两三年或迎能力跃迁窗口,具身智能关键在“脑”而非“体”。

在受访者看来,具身智能并非孤立赛道,而是对模型交互能力、环境理解与任务执行提出更高要求的应用集合。

刘知远研判,具身智能在能力层面的快速迭代或许并不遥远,未来两三年可能出现明显进展。

李大海则强调,当前具身领域的主要瓶颈不在机械本体,而在智能“大脑”的泛化能力与交互能力。

一旦模型在全模态理解、持续上下文、任务规划与安全执行等方面实现突破,产业有望迎来新一轮集中式升级,应用也将从单点功能走向系统性协作,形成从手机到汽车、从家庭到工业的多场景扩展。

人机交互技术的革新不仅关乎设备性能提升,更是人工智能融入现实世界的关键桥梁。

在这场由算法革命驱动的产业升级中,中国企业能否抓住全模态模型的发展机遇,将直接影响智能终端产业的全球竞争格局。

当技术曙光初现之时,更需要保持战略定力,在创新突破与风险防控间把握平衡,方能真正释放智能时代的变革潜力。