在这波技术进步的大潮中,位于旧金山的StandardIntelligence公司给大家送上了一个大惊喜,推出了一款名叫FDM-1的通用计算机模型。据介绍,这可是市面上首个能彻底胜任各种任务的计算机行为模型。为了搞定这项艰巨的任务,团队特地找来1100万小时的屏幕录制视频来喂养它,让它在CAD建模、网站安全测试还有自动驾驶这类场景里大展身手。按照30帧每秒的速度处理视频流对它来说就是小菜一碟。现在市面上大多数AI代理主要靠截屏分析来认识界面,比如Anthropic在2024年10月给Claude添的ComputerUse功能就是这么干的。可StandardIntelligence觉得光靠看截图不够深,没法摸清人类行为那一套复杂的门道。他们打算让AI直接在巨量视频里学习人类是怎么干活的,而不是老盯着截屏来做推理。在训练路子上,FDM-1跟OpenAI的VPT有点像,但数据规模和上下文长度上做了大文章。他们先拿4万小时的标注员录屏数据练了个逆向动力学模型(IDM),接着让这模型帮1100万小时的互联网视频自动贴上操作标签。虽然观察屏幕变化推测动作可能会有点杂音和歧义,但这种做法在技术上是通的。 在怎么压缩视频这方面,StandardIntelligence也下了血本。他们搞出了一种高效的视频编码器,能把将近两小时的长视频压缩到跟主流模型一样的token预算里去。这效率比老法子高了50倍,甚至比OpenAI的编码器还快100倍。靠着这种优势,FDM-1在处理像游戏操控这种高帧率的连续任务时特别顺手。给了这么多数据和高效的编码器做后盾,FDM-1就用了标准的自回归架构来学习。它能把视频帧和动作序列吃到肚子里,然后去猜下一个动作token是啥。跟那些传统的VLM路线不一样的是,FDM-1根本就不用管什么链式思维或者工具调用那一套,直接在视频和动作上干活。 为了验证效果到底咋样,公司搭了一个系统能同时运行8万台虚拟机来做测试。这个系统一小时能跑超过100万次评估。初步测下来发现,IDM帮忙贴的标签在鼠标操作、点击目标还有操作UI这些方面做得比人还准。 这技术要是拿到自动驾驶里微调一下也挺管用。只花不到一小时练一练后,FDM-1就能用方向键开车在旧金山的街区拐弯了。 虽说技术上的突破很亮眼,但现在它还不算一个能用的产品。毕竟它听不懂人话跟着指挥走,所有演示都是模型自己摸索或者执行预设好的动作。要是真要拿来用的话,得好好解决怎么听指令、怎么规划任务这些老大难问题。 以后FDM-1说不定会跟现在流行的那些VLM代理路数走到一起去。要是能再加上语言控制和高级规划模块的话,说不定能把两边的好处都占全了。随着大家越来越看重数据规模和上下文长度的重要性,StandardIntelligence这算是带着大家开辟了一条新路子吧?