中国电信这次在视频生成这块搞得动静挺大,居然把自家研发的TeleVideo 2.0推上了国际权威榜单的前五名。咱们国内参评的模型里,它也是稳坐前三的位置。这次更新是AI领域那个独立评测机构Artificial Analysis搞的,榜单叫做Image to Video Leaderboard,主要看视频画面的质量和动态连贯性。 这个模型是中国电信人工智能研究院TeleAI和中电信人工智能科技有限公司一块儿弄出来的。前面带队的是首席技术官、首席科学家李学龙,这套技术叫星辰多模态视频生成大模型。它是在2024年12月正式拿出来跟大家见面的,成绩这么好可不是撞大运,全是靠从底层数据一直到训练方法的系统性创新攒下来的底子。 咱们先说说数据这块儿,研发团队觉得数据质量就像决定了天花板多高的那个砖。所以他们搞了一套很严谨的数据治理流水线,“筛选-清洗-均衡-适配”这几个环节一个都没落下。通过这一套操作,输入模型的数据既够大又有质,这就从根本上保证了每帧画面看起来真实又丰富。模型既能把物理世界的规律学得像模像样,也能让艺术想象力尽情发挥。 接着是模型架构的创新。传统视频生成模型容易出现画面失真、动作卡顿、时序混乱这些毛病。TeleVideo 2.0反其道而行之,用了个“全局规划和局部精修”协同的新结构。这样一来,模型既能管好大场面的整体走向,又能抠细节,像人物神态、光影变化、背景元素这些东西在时间上都能保持稳定统一。这就把动态生成里常犯的“崩坏”和“不连贯”问题给彻底解决了,做出来的视频看着就自然、流畅。 在训练方法上他们也没偷懒。TeleVideo 2.0弄了个统一的视频后训练框架,把原来靠专家经验调参的活儿变成了可诊断、可解释、还能一直迭代的系统工程。特别是给生成长段、高分辨率复杂视频找了条高效优化的路子,效果提升了不少。 支撑这么强大的模型训练当然得有硬算力。TeleAI用了自家的TeleTron视频生成训练框架来搞万卡级别这么大规模的训练和快速迭代。这套东西既强大又稳定还能自主控制,体现了咱们企业在AI基础软硬件上的综合实力。 技术再好也得用在实处。TeleAI基于TeleVideo 2.0做了个AI视频创作平台TeleStudio,这是咱们中央企业里第一个涵盖了“文生图、文生视频、图生视频、角色驱动”全流程的平台。现在比赛都已经办起来了,就是为了让大家一起来玩玩,看看AI视频在文化、教育、商业这些地方还能变出什么新花样。 这次在国际上拿的好名次就是咱们坚持科技自立自强的最好证明。它不光是个技术指标的突破,更是全链条自主创新能力的提升。以后随着TeleStudio这种平台的开放和推广,这项技术肯定会越来越多地被用到各行各业里去。展望未来,咱们还得继续推动大模型技术的创新和应用深化,这对培养新的生产力、给数字经济打底子都特别有意义。