最近,中国的科研团队发表了一项关于人工智能的重大成果,在国际顶级学术期刊《Nature》上引起了广泛关注。这项成果是由北京智源人工智能研究院主导完成的,展示了中国在人工智能领域的深厚积累和创新能力。从2018年开始,生成式人工智能在全球范围内蓬勃发展,“预测下一个词元”的模型如GPT系列取得了巨大成功。然而,这些模型主要集中在处理纯文本数据上,对于包含图像、视频、音频等多种形态信息的复杂世界,如何构建统一理解和生成这些多模态内容的通用人工智能模型一直是个难题。智源研究院通过一个统一、简洁的解决方案来解决这个问题。研究团队发现,“预测下一个词元”这种自回归思想可以同时应用于不同模态的数据上。他们开发的Emu3模型把文本、图像、视频等数据统一转化为离散的“词元”序列进行训练,让模型能够以相同的方式学习和预测任意模态的下一个信息单元。这次研究在实验中表明,这种纯粹的自回归路线不仅在文本生成方面表现优异,在图像生成、视频生成、视觉问答等多模态任务上也能与顶尖模型相媲美。这次突破给了国际顶级期刊《Nature》编辑很高评价,他指出Emu3实现了对大规模文本、图像和视频的统一学习,并具备与专门路线方法相当的性能。自2022年以来,智源研究院就开始研发Emu系列模型,并一直专注于底层方法与基础理论突破。这次在《Nature》发表工作是这个潜心研究长期积累的结果。它表明中国科研团队已经具备提出并验证全球性关键科学问题解决方案的能力。这次突破性研究成功发表于国际顶级学术期刊表明中国在人工智能领域基础研究实力显著提升。通过坚持自主创新与开放合作,中国能够在全球人工智能科技创新中贡献更多源自中国的智慧与方案。未来随着基础研究成果持续涌现与下游应用加速渗透,这将为我国赢得新一轮科技革命和产业变革主动权提供坚实科学支撑。