中文文本转语音系统

IndexTTS是基于大型语言模型（LLM）的先进文本转语音系统，专为中文场景优化。它采用字符-拼音混合建模解决多音字问题，集成BigVGAN2解码器提升音质，支持零样本语音克隆和标点控制停顿。相比XTTS、Fish-Speech等系统，其训练更简单、推理更快，在自然度和语音克隆相似度上表现优异。

IndexTTS是基于XTTS和Tortoise模型的先进文本转语音系统，专为中文场景优化。通过字符-拼音混合建模解决多音字问题，集成BigVGAN2提升音质，零样本语音克隆MOS达4.01分，音色相似度0.776。目前代码未完全公开，需联系团队获取使用权限。

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。