加州大学团队揭示具身智能“环境文字劫持”隐患视觉攻击或冲击自动驾驶等安全底线

自动驾驶、配送机器人等具身智能技术正在快速融入日常生活，但一项最新研究揭示了这些系统的隐患——它们可能被简单的物理操纵所攻击；具身智能系统的核心是视觉语言模型，能够同时理解图像和文本信息，在复杂环境中做出判断。正是这种双重理解能力，为攻击者提供了突破口。研究表明，恶意文本可被嵌入路标、海报等物理载体中，误导系统做出错误判断。加州大学圣克鲁兹分校的研究团队首次提出了"环境间接提示"对具身智能系统的威胁，并设计了名为"CHAI"的攻击框架。该框架通过两个步骤实现"命令劫持"：利用生成式技术优化攻击文本，提高执行概率；调整文字的颜色、大小、位置等视觉属性，增强隐蔽性和有效性。研究团队在三类典型场景中验证了此框架的可行性。在自动驾驶场景中，误导图像成功干扰了测试车辆的导航。在无人机紧急降落模拟测试中，攻击成功率最高达95.5%。在目标搜索场景中，攻击同样表现出高度有效性。这些结果充分证明，此类攻击在物理世界中完全可行。这项研究的意义在于打破了人们对具身智能安全性的某些假设。传统网络安全防护针对远程攻击，但这项研究表明，攻击者无需复杂的远程入侵，仅需在环境中进行简单的物理操纵，就能使智能系统陷入困境。这种攻击方式的低成本和高可行性，使其成为不容忽视的安全隐患。随着具身智能技术的广泛应用，对应的安全问题日益凸显。产业界和学术界需要尽快建立新的安全标准和防护机制，包括开发更加鲁棒的视觉语言模型，增强系统对对抗性输入的抵抗力；建立物理世界的安全监测体系，及时发现和清除恶意信息；制定行业规范和法律框架，明确各方的安全责任；对具身智能系统进行全面的安全评估和压力测试，在大规模部署前充分暴露和解决潜在问题。从更深层看，这项研究反映了人工智能发展中的一个规律：技术越先进，潜在风险也越复杂。具身智能将智能从虚拟世界扩展到物理空间，这种扩展带来了新的应用可能，但同时引入了新的安全维度。我们需要在推进技术创新的同时，进行更加前瞻性的安全研究，为技术的大规模普及筑牢安全根基。

这项研究不仅揭示了智能技术在现实应用中面临的复杂挑战，更促使我们反思技术创新与社会安全的平衡；在拥抱技术进步的同时，如何构建可靠的安全防护体系，将成为决定具身智能能否真正造福社会的关键。这要求产学研各界的持续投入和协同努力。

加州大学团队揭示具身智能“环境文字劫持”隐患 视觉攻击或冲击自动驾驶等安全底线

加州大学团队揭示具身智能“环境文字劫持”隐患视觉攻击或冲击自动驾驶等安全底线