这是一个基于ByteDance的MegaTTS3模型的ComfyUI自定义节点,提供高质量的文本到语音合成功能,支持中英双语和语音克隆。 项目通过ComfyUI的工作流界面实现语音生成和克隆,支持参数调优、GPU资源优化和自动模型下载等功能。 用户可以通过提供简短的语音样本(WAV和NPY文件)克隆任何声音,并精细控制发音质量、语音相似度等参数。
csm-mlx是为Apple Silicon量身定制的对话语音模型实现,基于MLX框架,通过硬件优化实现高效自然的语音生成。支持上下文对话、语音克隆、流式生成等功能,并提供简单易用的CLI工具。项目特别适合在Mac设备上运行,适用于语音助手开发、实时语音合成等场景。
Ditto Speak 是一款语音克隆与语音生成工具,能够从音频中捕捉语音模式,并生成与原始音频相似的语音。用户只需上传音频样本,输入文本,即可生成与原始语音风格一致的语音内容。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型