【图】Fun-CosyVoice3-0.5B-2512-全国语音交互-梓创网络-青岛梓创网络科技有限公司

Fun-CosyVoice 3.0 是一个基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统，在内容一致性、说话人相似度和韵律自然性方面超越了其前身 (CosyVoice 2.0)。它旨在实现零样本多语种野外语音合成。

主要特点
语言覆盖范围: 涵盖9种常用语言（中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语），18种以上的中文方言/口音（广东话、闽南话、四川话、东北话、陕西话、山西话、上海话、天津话、山东话、宁夏话、甘肃话等），同时支持多语种/跨语种零样本语音克隆。
内容一致性和自然性: 在内容一致性、说话人相似度和韵律自然性方面达到最先进的性能。
发音修复: 支持中文拼音和英文CMU音素的发音修复，提供更多可控性，因此适用于生产使用。
文本规范化: 支持读取数字、特殊符号和各种文本格式，无需传统的前端模块。
双向流处理: 支持文本输入流和音频输出流，并在保持高质量音频输出的同时实现低至150毫秒的延迟。
指令支持: 支持多种指令，如语言、方言、情感、速度、音量等。

Fun-CosyVoice3-0.5B-2512

赛迪奇科技

机构好评：96

2023涨薪必备技能

如何快速创作火爆全网的手绘作品？

私单涨薪必备技能

UI动效设计师为什么拿高薪？

名师高徒挑战高薪

为什么阿里和OPPO超爱这类插画风格？

高效实战百万人气

都是图标设计，总监和你有什么区别？

高效实战职场技能

梓创网络-青岛梓创网络科技有限公司