多模态人工智能这东西一直都不太好弄，因为它是一个特别杂的活。

多模态人工智能这东西一直都不太好弄，因为它是一个特别杂的活。比如你看文字吧，那是自然语言处理的活；要搞出图片就得用扩散模型；要弄视频又得靠别的技术体系。这种“分科而治”的格局不光让系统变得特别复杂，更要命的是把它的本事给限制死了，没法跨着模态去理解和创造。不过这回中国科研团队有了新招，北京智源人工智能研究院搞了个大动作。他们把GPT那种“预测下一个词元”的老路子给抄了过来，并且硬把它拓展到了多模态领域。结果Emu3模型出来了，证明只要大家都用同一个自回归的路子走，就能把文本、图像和视频的表示与生成这几样东西都学会，还真把范式给统一了。《自然》杂志编辑说这套办法很牛，Emu3在大规模协同学习方面表现特别好，做得不比专用的技术差多少。这就像给人工智能系统做了个统一的框架，以后开发和部署就省事多了。实验结果也很喜人，不管是图像生成、图文理解还是视频创作，这种统一方法都玩得溜。更让人兴奋的是它的扩展性很强。还有那个升级版Emu3.5，虽然还是用的这个技术路径，但已经开始尝试模拟物理世界的运行规律了。这算是给发展更像人类认知的通用人工智能打下了底子。这背后其实是国家一直在投钱做原始创新。早在2020年智源研究院就开始搞“悟道”计划了。到了2025年6月他们发布了“悟界”系列成果，重点就是要让人工智能从数字世界往物理世界去延伸。现在全球竞争这么激烈，基础理论这块谁强谁就占上风。这次我们不仅有了新招数还拿到了《自然》的正刊文章。业界专家觉得这不仅仅是个技术上的突破，更是为生成式人工智能搭了个统一的理论架子。以后这种路子还能在更多领域派上用场。我们国家现在在这方面已经站到世界前沿了。