Zonos开源 – 开源多语言高质量语音克隆TTS模型
Zonos是由Zyphra开发的开源多语言文本转语音(TTS)模型,支持英语、日语、中文、法语和德语五种语言。
该模型基于超过200,000小时的多语言语音数据训练,能够通过几秒钟的音频样本实现高质量语音克隆,生成44kHz高保真音频。
在RTX 4090上可实现2倍实时性能的生成速度,支持情感语音生成(如快乐、恐惧、悲伤、愤怒等),
并提供对语速、音高和音频质量的精细控制。项目采用Apache 2.0许可证发布,包含1.6B变压器模型和1.6B混合模型两种架构。