Soul X-Singer最近开源了,现在给我们提供了一个零样本歌声合成的全新方法。Soul App AI团队(Soul AI Lab)和吉利汽车研究院、天津大学还有西北工业大学一起发布了这个模型。这个模型给超过42000小时的训练数据做基础,能让你用普通话、英语和粤语进行零样本歌声合成,这在开源社区里算是顶尖的水平了。SVS技术就是把歌词和乐谱转换成人声演唱,比普通的语音合成更要注意音高和旋律。现在大家都想要这种稳定好用的SVS模型来帮虚拟歌手和音乐创作。SoulX-Singer就是针对这个痛点设计的。它用Flow Matching生成模式来建模音频,把歌声合成变成了音频补全任务。然后针对歌词、旋律和发声这三者强耦合的特点,它又引入了音符级别的对齐机制,这样每个音符的起止时间和持续时长都能精确控制。再加上42000小时高质量歌声数据的支持,不管什么歌手来唱这个模型都能自然稳定。SoulX-Singer还提供了Music Score和Melody两种驱动模式,一个适合原创音乐和歌词编辑,另一个适合翻唱和风格迁移。现在它支持三种语言——普通话、英语还有粤语——每个语种下的效果都很不错。根据评测结果来看,SoulX-Singer在GMO-SVS和SoulX-Singer-Eval数据集上都表现得比现有的开源方案要好。它还可以通过GitHub和Hugging Face这些平台下载到源代码和模型权重。之前Soul团队已经开源过播客合成模型和实时数字人模型了,这次又加入了这个歌声合成的内容。团队表示以后还会继续优化模型,让更多语言和风格都能支持。这意味着AI音乐生成技术离实用化又近了一步。