多模态人工智能这东西一直都不太好弄,因为它是一个特别杂的活。比如你看文字吧,那是自然语言处理的活;要搞出图片就得用扩散模型;要弄视频又得靠别的技术体系。这种“分科而治”的格局不光让系统变得特别复杂,更要命的是把它的本事给限制死了,没法跨着模态去理解和创造。不过这回中国科研团队有了新招,北京智源人工智能研究院搞了个大动作。他们把GPT那种“预测下一个词元”的老路子给抄了过来,并且硬把它拓展到了多模态领域。结果Emu3模型出来了,证明只要大家都用同一个自回归的路子走,就能把文本、图像和视频的表示与生成这几样东西都学会,还真把范式给统一了。《自然》杂志编辑说这套办法很牛,Emu3在大规模协同学习方面表现特别好,做得不比专用的技术差多少。这就像给人工智能系统做了个统一的框架,以后开发和部署就省事多了。 实验结果也很喜人,不管是图像生成、图文理解还是视频创作,这种统一方法都玩得溜。更让人兴奋的是它的扩展性很强。还有那个升级版Emu3.5,虽然还是用的这个技术路径,但已经开始尝试模拟物理世界的运行规律了。这算是给发展更像人类认知的通用人工智能打下了底子。 这背后其实是国家一直在投钱做原始创新。早在2020年智源研究院就开始搞“悟道”计划了。到了2025年6月他们发布了“悟界”系列成果,重点就是要让人工智能从数字世界往物理世界去延伸。现在全球竞争这么激烈,基础理论这块谁强谁就占上风。这次我们不仅有了新招数还拿到了《自然》的正刊文章。 业界专家觉得这不仅仅是个技术上的突破,更是为生成式人工智能搭了个统一的理论架子。以后这种路子还能在更多领域派上用场。我们国家现在在这方面已经站到世界前沿了。