IndexTTS是基于XTTS和Tortoise模型的先进文本转语音系统,专为中文场景优化。通过字符-拼音混合建模解决多音字问题,集成BigVGAN2提升音质,零样本语音克隆MOS达4.01分,音色相似度0.776。目前代码未完全公开,需联系团队获取使用权限。