IndexTTS是基于大型语言模型(LLM)的先进文本转语音系统,专为中文场景优化。它采用字符-拼音混合建模解决多音字问题,集成BigVGAN2解码器提升音质,支持零样本语音克隆和标点控制停顿。相比XTTS、Fish-Speech等系统,其训练更简单、推理更快,在自然度和语音克隆相似度上表现优异。
IndexTTS是基于XTTS和Tortoise模型的先进文本转语音系统,专为中文场景优化。通过字符-拼音混合建模解决多音字问题,集成BigVGAN2提升音质,零样本语音克隆MOS达4.01分,音色相似度0.776。目前代码未完全公开,需联系团队获取使用权限。
CosyVoice是阿里巴巴通义实验室开发的语音生成工具,支持多语言与跨语言生成、零样本语音克隆、双向流式语音合成、富文本与情感控制等功能。适用于直播、客服等对响应速度要求极高的场景。CosyVoice 2.0版本在1.0的基础上提供了更准确、更稳定、更快速、更高质量的语音生成能力。