以前想让语音换个调调或者自己设计个声音,操作起来特别麻烦,现在好了,阿里通义语音双模型一发布,事情就简单多了。IT之家带来消息,今天阿里通义实验室把两款新模型给推了出来,分别叫Fun-CosyVoice3.5和Fun-AudioGen-VD。官方说这两个模型都支持FreeStyle指令生成,也就是说,不管是精细控制语气,还是从零开始设计音色场景,只需要用自然语言说句话就行。 Fun-CosyVoice3.5专门针对多语种复刻和精细化表达做了升级。在Instruct-TTS方向上,它现在能听懂用户直接发的指令,比如“语气坚定一点”或者“带一点情绪起伏”,然后立马把语音给生成出来。这个版本还支持泰语、印尼语、葡萄牙语、越南语等多语言。在衡量发音质量和说话人相似度的WER和SpkSim指标上,Fun-CosyVoice3.5依旧保持着业内领先的水平。另外针对那些生僻字或者复杂句子容易读错的问题做了专项优化,生僻字读错率直接从15.2%降到了5.3%,复杂文本表现更稳定了。 Fun-CosyVoice3.5还用强化学习技术对听感进行了双重提升,让整体听感更自然有层次。性能方面也不错,Tokenizer帧率砍了一半,首包延迟降低了35%,响应速度更快了。Fun-AudioGen-VD这个模型就不一样了,它主要是用来生成目标音色、情绪表达还有完整的听觉场景。 不管是基础属性比如性别、年龄、口音还是音质特征比如沙哑、清亮等,甚至复杂的心理状态像“表面镇定但内心颤抖”,它都能生成出来。它不只是生成声音,还能把声音所处的“世界”给打造出来。比如在背景环境音里加上城市喧嚣或者咖啡馆的背景;空间混响效果上模拟大教堂或者水下的回声;设备听感滤镜里还原老式广播或者呼吸面罩的音质;动态环境互动上支持风噪断续或者嘶哑效果等实时互动。