阿里又给咱们整了个大活,一口气发了两款新模型。这两款模型挺牛,一款叫fun-audiogen-v

各位好,我是新京报贝壳财经的罗亦丹,3月2日阿里巴巴又给咱们整了个大活,一口气发了两款新模型。这两款模型挺牛,一款叫Fun-AudioGen-VD,另一款叫Fun-CosyVoice3.5,名字起得都挺有意思。你看Fun-CosyVoice3.5,专门搞声音克隆的,就是你把一段录音给它听,它就能把你的声音扒下来。Fun-AudioGen-VD就更厉害了,完全不用参考音频,你随便怎么说它都能给你生成想要的音色。这俩模型最厉害的地方就是特别听话,你想让它的情感怎么变、语速多快、场景是什么样,直接用指令吩咐就行了。现在做有声书、玩游戏、做客服,甚至教育直播都能用得着。 那大家肯定都关心效果咋样吧?这次Seed-TTS基准测试里有一个叫“困难案例”的指标,这个Fun-CosyVoice3.5表现就特别抢眼。什么叫困难案例?就是那些生僻字、难发音的词呗。原来以前的模型出错率能到15.2%,现在经过优化,直接降到了5.3%,这个改进确实不小。而且它在测那个词错误率(Word Error Rate)和说话人相似度(Speaker Similarity)的时候都拿了最好的成绩。 以前咱们克隆个声音老是有个毛病,就是只会模仿原音,根本没法指定角色。现在Fun-CosyVoice3.5支持自由风格模式了,完美解决了这个问题。比如说你录了一个人的声音,然后给它个指令说:“假设这个人是一位资深客服,现在面对一个非常生气的客户。”那它生成的回复语气就得柔软真诚,还得充满愧疚感,让人觉得它对客户的情绪特别能感同身受。 再看Fun-AudioGen-VD这个模型,专门负责从无到有地设计音色。你想什么它都能给你整出来。更绝的是它不光能弄音色和情感,还能给你加点背景音。比如你要录一段城市场景的声音,它能自动加上车流声、雨声、风噪;要是战场环境,炮火和警报声也能加上;去咖啡馆坐一会儿,周围的人声和翻书声也给你配好了。总之就是让你体验那种身临其境的感觉。