emu 系列模型首次在国际顶尖学术期刊发表

我国在多模态大模型的基础研究上取得了重大突破，其自主创新成果首次在国际顶尖学术期刊《自然》正刊发表。2022年，北京智源人工智能研究院启动了“Emu”系列模型的研发，一直坚持开源开放的理念，向全球社区共享了视觉分词器等核心组件。智源研究院与《自然》杂志达成合作，2月12日，论文《通过预测下一个词元进行多模态学习》正式接收上线。这篇文章展现了我国科研团队在人工智能基础研究原创性方面获得了国际最高学术平台的认可。这标志着我国已经从技术跟随和应用创新逐步迈入源头创新与理论贡献的新阶段。Emu3模型把文本、图像、视频等不同模态的数据统一映射到同一个表示空间，用一个单一的Transformer神经网络架构实现联合建模和训练。这种方法摒弃了复杂体系和多种辅助技术的依赖，为多模态智能提供了强大支持。Emu3在文生图、视觉问答和视频生成等任务上表现出色，超越了许多为特定任务量身打造的专业模型。此外，这个统一架构赋予了模型强大的扩展和涌现能力，可以处理图文交错生成和机器人操作任务等复杂场景。中国科研人员通过大胆创新和独特理论为构建真正意义上的原生多模态智能体奠定了坚实基础。Emu系列模型不仅提供了公共知识财富，还揭示了多模态自回归模型训练动力学特性。这次成果展示了我国在人工智能领域不断提升实力和能力。从跟随到并跑再到领跑，中国科研团队在国际科技竞争中赢得了主动权。我国人工智能基础研究厚积薄发、勇攀高峰的精神让我们期待未来更多原创性成果和关键性技术突破。