阿里通义实验室推出两款语音生成模型，指令化创作与场景化音频能力同步升级

当前语音合成技术面临的核心挑战在于如何降低用户使用门槛，实现更加直观、灵活的交互方式。

传统的语音生成工具往往需要复杂的参数调整，专业性要求高，难以满足普通用户的创作需求。

阿里通义实验室的最新举措正是针对这一问题的创新突破。

两款新模型的共同特点是引入了FreeStyle指令生成机制，用户无需掌握专业知识，仅需通过自然语言描述即可实现语音生成。

这种设计理念大幅降低了技术使用的复杂度。

例如，用户可以直接表达"语气坚定一点""稍微压低音调，语速慢一点"等需求，系统即可准确理解并生成相应效果。

Fun-CosyVoice3.5在语言覆盖范围和表达精度上实现了重要升级。

该模型新增支持泰语、印尼语、葡萄牙语、越南语等多种语言，使其全球适用性显著增强。

在13种语言的词错率和说话人相似度等关键指标上，该模型保持业界领先水平。

针对生僻字、复杂语句等容易出现错误的场景，Fun-CosyVoice3.5进行了专项优化，将生僻字读错率从15.2%降低至5.3%，长文本朗读的稳定性和流畅性也得到显著改善。

技术性能方面，Fun-CosyVoice3.5通过优化Tokenizer帧率、降低首包延迟等手段，将响应速度提升35%，在实时交互场景中提供更加流畅的用户体验。

同时，该模型采用强化学习技术进行精细调优，使生成的语音更加自然逼真，表达层次更加丰富。

与Fun-CosyVoice3.5侧重于语音复刻和表达控制不同，Fun-AudioGen-VD的创新在于实现了"人物加场景"的一体化声音生成。

该模型支持对性别、年龄、口音、音高、语速等基础属性的精确控制，同时可以设定沙哑、清亮、低沉、磁性等音质特征，以及愤怒、悲伤、兴奋、坚定等情绪表达。

更为突出的是，该模型还支持细腻的心理状态表达，如"表面镇定但内心颤抖"等复杂情感的还原。

Fun-AudioGen-VD的另一大亮点是其沉浸式听觉场景生成能力。

用户不仅可以生成具有特定属性的人物声音，还可以为这个声音配置完整的"听觉世界"。

系统支持叠加城市喧嚣、咖啡馆背景、战场轰鸣等环境音效，模拟大教堂、金属牢房、水下等不同空间的混响效果，还原老式广播、对讲机等设备的特殊音质，甚至支持风噪断续、回声变化等动态环境互动。

这种设计使得生成的音频内容更加立体、真实、富有代入感。

从应用前景看，这两款模型的发布标志着语音生成技术正在向更加民主化、创意化的方向发展。

在内容创作、娱乐制作、教育培训、客户服务等多个领域，这些技术都具有广泛的应用潜力。

随着模型的不断迭代优化和用户反馈的积累，语音创作工具有望成为继文本、图像之后的又一重要创意表达方式。

语音作为最自然的人机交互方式，其技术突破始终与用户体验息息相关。

阿里巴巴此次发布的新一代语音模型，不仅展现了企业在人工智能前沿领域的创新能力，更预示着声音创作将进入"所想即所得"的新阶段。

未来，随着技术的持续迭代，语音合成有望在更多场景中打破虚拟与真实的界限，重塑人机交互的无限可能。