IndexTTS是基于大型语言模型(LLM)的先进文本转语音系统,专为中文场景优化。它采用字符-拼音混合建模解决多音字问题,集成BigVGAN2解码器提升音质,支持零样本语音克隆和标点控制停顿。相比XTTS、Fish-Speech等系统,其训练更简单、推理更快,在自然度和语音克隆相似度上表现优异。