阿里通义语音双模型发布

以前想让语音换个调调或者自己设计个声音，操作起来特别麻烦，现在好了，阿里通义语音双模型一发布，事情就简单多了。IT之家带来消息，今天阿里通义实验室把两款新模型给推了出来，分别叫Fun-CosyVoice3.5和Fun-AudioGen-VD。官方说这两个模型都支持FreeStyle指令生成，也就是说，不管是精细控制语气，还是从零开始设计音色场景，只需要用自然语言说句话就行。 Fun-CosyVoice3.5专门针对多语种复刻和精细化表达做了升级。在Instruct-TTS方向上，它现在能听懂用户直接发的指令，比如“语气坚定一点”或者“带一点情绪起伏”，然后立马把语音给生成出来。这个版本还支持泰语、印尼语、葡萄牙语、越南语等多语言。在衡量发音质量和说话人相似度的WER和SpkSim指标上，Fun-CosyVoice3.5依旧保持着业内领先的水平。另外针对那些生僻字或者复杂句子容易读错的问题做了专项优化，生僻字读错率直接从15.2%降到了5.3%，复杂文本表现更稳定了。 Fun-CosyVoice3.5还用强化学习技术对听感进行了双重提升，让整体听感更自然有层次。性能方面也不错，Tokenizer帧率砍了一半，首包延迟降低了35%，响应速度更快了。Fun-AudioGen-VD这个模型就不一样了，它主要是用来生成目标音色、情绪表达还有完整的听觉场景。不管是基础属性比如性别、年龄、口音还是音质特征比如沙哑、清亮等，甚至复杂的心理状态像“表面镇定但内心颤抖”，它都能生成出来。它不只是生成声音，还能把声音所处的“世界”给打造出来。比如在背景环境音里加上城市喧嚣或者咖啡馆的背景；空间混响效果上模拟大教堂或者水下的回声；设备听感滤镜里还原老式广播或者呼吸面罩的音质；动态环境互动上支持风噪断续或者嘶哑效果等实时互动。