阿里又给咱们整了个大活，一口气发了两款新模型。这两款模型挺牛，一款叫fun-audiogen-v

各位好，我是新京报贝壳财经的罗亦丹，3月2日阿里巴巴又给咱们整了个大活，一口气发了两款新模型。这两款模型挺牛，一款叫Fun-AudioGen-VD，另一款叫Fun-CosyVoice3.5，名字起得都挺有意思。你看Fun-CosyVoice3.5，专门搞声音克隆的，就是你把一段录音给它听，它就能把你的声音扒下来。Fun-AudioGen-VD就更厉害了，完全不用参考音频，你随便怎么说它都能给你生成想要的音色。这俩模型最厉害的地方就是特别听话，你想让它的情感怎么变、语速多快、场景是什么样，直接用指令吩咐就行了。现在做有声书、玩游戏、做客服，甚至教育直播都能用得着。那大家肯定都关心效果咋样吧？这次Seed-TTS基准测试里有一个叫“困难案例”的指标，这个Fun-CosyVoice3.5表现就特别抢眼。什么叫困难案例？就是那些生僻字、难发音的词呗。原来以前的模型出错率能到15.2%，现在经过优化，直接降到了5.3%，这个改进确实不小。而且它在测那个词错误率（Word Error Rate）和说话人相似度（Speaker Similarity）的时候都拿了最好的成绩。以前咱们克隆个声音老是有个毛病，就是只会模仿原音，根本没法指定角色。现在Fun-CosyVoice3.5支持自由风格模式了，完美解决了这个问题。比如说你录了一个人的声音，然后给它个指令说：“假设这个人是一位资深客服，现在面对一个非常生气的客户。”那它生成的回复语气就得柔软真诚，还得充满愧疚感，让人觉得它对客户的情绪特别能感同身受。再看Fun-AudioGen-VD这个模型，专门负责从无到有地设计音色。你想什么它都能给你整出来。更绝的是它不光能弄音色和情感，还能给你加点背景音。比如你要录一段城市场景的声音，它能自动加上车流声、雨声、风噪；要是战场环境，炮火和警报声也能加上；去咖啡馆坐一会儿，周围的人声和翻书声也给你配好了。总之就是让你体验那种身临其境的感觉。