soul x-singer：零样本歌声合成

Soul X-Singer最近开源了，现在给我们提供了一个零样本歌声合成的全新方法。Soul App AI团队（Soul AI Lab）和吉利汽车研究院、天津大学还有西北工业大学一起发布了这个模型。这个模型给超过42000小时的训练数据做基础，能让你用普通话、英语和粤语进行零样本歌声合成，这在开源社区里算是顶尖的水平了。SVS技术就是把歌词和乐谱转换成人声演唱，比普通的语音合成更要注意音高和旋律。现在大家都想要这种稳定好用的SVS模型来帮虚拟歌手和音乐创作。SoulX-Singer就是针对这个痛点设计的。它用Flow Matching生成模式来建模音频，把歌声合成变成了音频补全任务。然后针对歌词、旋律和发声这三者强耦合的特点，它又引入了音符级别的对齐机制，这样每个音符的起止时间和持续时长都能精确控制。再加上42000小时高质量歌声数据的支持，不管什么歌手来唱这个模型都能自然稳定。SoulX-Singer还提供了Music Score和Melody两种驱动模式，一个适合原创音乐和歌词编辑，另一个适合翻唱和风格迁移。现在它支持三种语言——普通话、英语还有粤语——每个语种下的效果都很不错。根据评测结果来看，SoulX-Singer在GMO-SVS和SoulX-Singer-Eval数据集上都表现得比现有的开源方案要好。它还可以通过GitHub和Hugging Face这些平台下载到源代码和模型权重。之前Soul团队已经开源过播客合成模型和实时数字人模型了，这次又加入了这个歌声合成的内容。团队表示以后还会继续优化模型，让更多语言和风格都能支持。这意味着AI音乐生成技术离实用化又近了一步。