MegaTTS3是字节跳动开源的轻量级语音合成系统,基于PyTorch实现,支持中英双语及代码切换。其核心采用仅0.45B参数的扩散Transformer模型,可实现高质量零样本语音克隆,并提供口音控制、细粒度发音调节等功能。项目包含语音对齐器、音素转换模型和WaveVAE编解码器等子模块,适用于学术研究及多场景语音合成需求。