Spark-TTS 是一款基于 Qwen2.5 模型的高效文本转语音(TTS)系统,支持细粒度语音控制和零样本语音克隆。该系统在多个基准测试上超越现有 TTS 方法,结合 Qwen2.5 LLM 进行端到端生成,采用 BiCodec 编码简化架构并提升推理效率。Spark-TTS 支持中英双语,允许用户通过文本描述语音风格,生成全新的虚拟声音,并在零样本情况下克隆语音,生成高质量个性化声音。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型