蚂蚁集团旗下的蚂蚁灵波科技最近在具身智能领域取得了重要进展,他们决定把两个关键模型完全开放给大家使用,这无疑把这个技术变得更容易被大家掌握,也帮助整个行业更快发展。在这个人工智能技术与物理世界结合越来越紧密的时代,让机器人能跟环境进行聪明互动是个大趋势,全球各地的科技公司都在努力争抢这个先机。 这次,他们把LingBot-VLA这个视觉-语言-动作融合的大模型放了出来,还顺带把它的训练工具链也给了大家。这个模型不仅能听懂人话,看懂画面,还能直接告诉机器人该怎么动。为了让大家用得顺手,他们特意在数据上做了优化,在8张GPU卡上跑,每秒钟能处理261个样本,比市面上的其他工具快1.5到2.8倍。这样一来,机器人厂商和研究机构就不用再花大力气从零开始训练了,成本低了很多。目前,这个模型已经成功跟星海图、松灵还有乐聚这些机器人厂家合作,证明了它在各种机器人上都能用。 除了模型本身,他们还在数据方面下了功夫。他们用了海量的真实操作数据来研究发现,模型的效果跟预训练数据的多少是成正比的。数据从3000小时增加到20000小时时,成功率一直在涨,而且没见顶。基于这个发现,他们弄了个高质量的数据集来测试模型在GM-100这个评测基准上的表现。实验显示,LingBot-VLA在三个不同的机器上表现得都不错,成功率比之前提高了不少。特别是给模型加上了深度信息后,成功率更是提升到了17.3%。 对于机器人来说,看清周围的环境是很重要的。蚂蚁灵波还把LingBot-Depth这个专注于深度感知的模型也放出来了。这个模型能把不太好的原始深度数据变成高质量的三维信息。他们用奥比中光的Gemini 330相机来采集数据和验证效果。在NYUv2和ETH3D这些测试中,LingBot-Depth表现得非常出色,精度和稳定性都比工业级的相机还要好。这个模型已经通过了专业认证,在机器人和自动驾驶领域很有用。 把这两个核心模型开源出来是个很大的动作,既展示了咱们在底层技术上的实力,也把好用的工具给了大家用。这样能让更多的人一起搞研发、攻克难题,让技术变得更普及。在以后的发展中,怎么制定标准、创造新场景还有促进大家合作会变得很重要。