蚂蚁灵波把两个核心模型完全开放给大家使用

蚂蚁集团旗下的蚂蚁灵波科技最近在具身智能领域取得了重要进展，他们决定把两个关键模型完全开放给大家使用，这无疑把这个技术变得更容易被大家掌握，也帮助整个行业更快发展。在这个人工智能技术与物理世界结合越来越紧密的时代，让机器人能跟环境进行聪明互动是个大趋势，全球各地的科技公司都在努力争抢这个先机。这次，他们把LingBot-VLA这个视觉-语言-动作融合的大模型放了出来，还顺带把它的训练工具链也给了大家。这个模型不仅能听懂人话，看懂画面，还能直接告诉机器人该怎么动。为了让大家用得顺手，他们特意在数据上做了优化，在8张GPU卡上跑，每秒钟能处理261个样本，比市面上的其他工具快1.5到2.8倍。这样一来，机器人厂商和研究机构就不用再花大力气从零开始训练了，成本低了很多。目前，这个模型已经成功跟星海图、松灵还有乐聚这些机器人厂家合作，证明了它在各种机器人上都能用。除了模型本身，他们还在数据方面下了功夫。他们用了海量的真实操作数据来研究发现，模型的效果跟预训练数据的多少是成正比的。数据从3000小时增加到20000小时时，成功率一直在涨，而且没见顶。基于这个发现，他们弄了个高质量的数据集来测试模型在GM-100这个评测基准上的表现。实验显示，LingBot-VLA在三个不同的机器上表现得都不错，成功率比之前提高了不少。特别是给模型加上了深度信息后，成功率更是提升到了17.3%。对于机器人来说，看清周围的环境是很重要的。蚂蚁灵波还把LingBot-Depth这个专注于深度感知的模型也放出来了。这个模型能把不太好的原始深度数据变成高质量的三维信息。他们用奥比中光的Gemini 330相机来采集数据和验证效果。在NYUv2和ETH3D这些测试中，LingBot-Depth表现得非常出色，精度和稳定性都比工业级的相机还要好。这个模型已经通过了专业认证，在机器人和自动驾驶领域很有用。把这两个核心模型开源出来是个很大的动作，既展示了咱们在底层技术上的实力，也把好用的工具给了大家用。这样能让更多的人一起搞研发、攻克难题，让技术变得更普及。在以后的发展中，怎么制定标准、创造新场景还有促进大家合作会变得很重要。