艾伦研究院发布全新视觉定位系统 类脑认知技术实现关键突破

一、问题:坐标式定位高分辨率与复杂场景下成本高、冗余多 长期以来,机器视觉的目标定位多用坐标数字来表达,直观但受制于“精度越高、成本越高”。在高分辨率图像中,坐标描述会引入大量冗余信息,标注流程更繁琐,存储与推理开销也随之上升;在多目标、遮挡、快速运动等复杂场景下,模型还容易出现定位断续、无效搜索等情况。随着8K超高清影像、实时交互界面和多模态应用普及,传统坐标式定位的效率瓶颈更加明显,亟需新的表达方式与学习范式。 二、原因:借鉴人类视觉策略,用“分层指向”替代“机械坐标” 针对上述痛点,MolmoPoint借鉴人类指向行为,提出一种定位框架,把“找在哪里”转化为“指向到哪里”。系统引入分层定位标记机制,将定位过程拆分为递进式三阶段:先锁定目标所在区域,再细化到子区域,最终给出更精确的位置标记。这样做相当于让模型按视觉注意力逐步收缩搜索范围,减少一次性计算精确坐标的负担。 实验结果显示,在自然图像定位任务中,该系统准确率达到70.7%,比传统方法提升约12个百分点;同时将标记量从8个压缩至3个,可在同等任务下明显降低数据标注与存储压力,为大规模训练与部署提供更可控的成本。 三、影响:连续定位更“像人”,理解关系更自然,空场景能自动止损 在“能定位”的基础上,MolmoPoint更强调“能理解”。其相对位置编码机制使模型在连续指向时可利用前序信息形成连贯序列,从而更自然地表达目标之间的相对关系,例如“某物体在另一物体左侧”,有助于提升多目标场景中的一致性与可解释性。 同时,团队提出“停止指向”机制:当画面中不存在涉及的物体时,系统可主动终止定位过程,避免在无目标场景中反复尝试造成资源浪费。这些设计在工程上提升推理效率,在应用上提高交互可靠性,可为机器人执行、界面操作与辅助决策等任务减少“无效动作”。 四、对策:面向不同场景推出专用模型,兼顾效率、泛化与样本效率 为推动落地,研究团队围绕典型应用推出三款模型,分别面向图像与视频通用任务、图形界面元素定位以及动态目标追踪等需求。在图形界面测试中,系统适配多类界面设计,在ScreenSpotPro基准上取得61.1%的准确率;在视频追踪任务中,结合真实场景与3D渲染数据训练的模型,在人工评估中获得59.1%的胜率,尤其在遮挡与快速运动条件下更稳健。 从工程指标看,新方法使存储需求降低约62%,推理速度提升约3倍;在泛化上,无需重新训练即可适配不同分辨率图像,包括训练阶段未覆盖的8K超高清画面。样本效率实验也显示,在使用相同训练数据的条件下,新方法整体性能提升约18%,训练收敛速度加快约40%。这意味着在数据受限、交付周期紧的行业应用中,该方案更易复制和部署。 五、前景:开源推动生态扩散,类脑式视觉有望重塑人机协作方式 值得关注的是,研究团队开放了预训练模型、训练代码和数据集,为开发者提供较完整的工具链。开源发布后,社区已出现二十余个衍生项目,延伸至自动驾驶、工业检测等方向。业内人士认为,定位作为视觉系统的基础能力,其效率与表达方式的变化会影响上层任务的构建路径:从“先识别再计算坐标”转向“边理解边指向”,有望提升机器人抓取、智能质检、医疗影像标注、无障碍辅助等场景的实时性与交互流畅度。 面向未来,类脑式视觉定位仍需在更复杂环境中验证可靠性,包括跨域数据偏移、长视频持续追踪、低照度与极端天气等挑战;同时也需要完善评测体系与安全边界,确保在关键场景中可控、可解释、可追溯。随着多模态交互进一步进入产业链,能够以更低成本实现高质量定位的技术路线,或将成为智能终端与智能制造升级的重要支点。

从“报出一串坐标”到“像人一样指向并说明关系”,视觉定位路径的变化反映出智能技术从计算工具走向认知表达的趋势。面对更复杂的现实场景,能在效率、泛化与可信可控之间取得平衡的方案,更有机会把视觉能力真正转化为生产力与公共服务能力。