Fun-CosyVoice 3.0 是一个基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然性方面超越了其前身 (CosyVoice 2.0)。它旨在实现零样本多语种野外语音合成。
主要特点
语言覆盖范围: 涵盖9种常用语言(中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语),18种以上的中文方言/口音(广东话、闽南话、四川话、东北话、陕西话、山西话、上海话、天津话、山东话、宁夏话、甘肃话等),同时支持多语种/跨语种零样本语音克隆。
内容一致性和自然性: 在内容一致性、说话人相似度和韵律自然性方面达到最先进的性能。
发音修复: 支持中文拼音和英文CMU音素的发音修复,提供更多可控性,因此适用于生产使用。
文本规范化: 支持读取数字、特殊符号和各种文本格式,无需传统的前端模块。
双向流处理: 支持文本输入流和音频输出流,并在保持高质量音频输出的同时实现低至150毫秒的延迟。
指令支持: 支持多种指令,如语言、方言、情感、速度、音量等。
主要特点
语言覆盖范围: 涵盖9种常用语言(中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语),18种以上的中文方言/口音(广东话、闽南话、四川话、东北话、陕西话、山西话、上海话、天津话、山东话、宁夏话、甘肃话等),同时支持多语种/跨语种零样本语音克隆。
内容一致性和自然性: 在内容一致性、说话人相似度和韵律自然性方面达到最先进的性能。
发音修复: 支持中文拼音和英文CMU音素的发音修复,提供更多可控性,因此适用于生产使用。
文本规范化: 支持读取数字、特殊符号和各种文本格式,无需传统的前端模块。
双向流处理: 支持文本输入流和音频输出流,并在保持高质量音频输出的同时实现低至150毫秒的延迟。
指令支持: 支持多种指令,如语言、方言、情感、速度、音量等。



