csm-mlx是为Apple Silicon量身定制的对话语音模型实现,基于MLX框架,通过硬件优化实现高效自然的语音生成。支持上下文对话、语音克隆、流式生成等功能,并提供简单易用的CLI工具。项目特别适合在Mac设备上运行,适用于语音助手开发、实时语音合成等场景。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
一个用于文本到语音生成的Web用户界面,支持多种语音合成模型,用户可以轻松创建高质量的语音合成音频。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
Bark是一个创新的文本转语音工具,能够生成接近真人的高质量声音,支持多种语言,并可添加情感音效和背景噪音,适用于各种应用场景。
ElevenLabs 是一款提供最具吸引力、丰富和逼真的语音的文本转语音和语音克隆软件,旨在为创作者和出版商提供讲故事的终极工具。
Lazybird 是一个AI语音合成平台,支持100多种语言,提供数千种角色声音和背景音乐,旨在为用户提供自然流畅的语音体验。它可以用于各种场景,如视频配音、语音助手等,帮助用户轻松创建高质量的语音内容。
IBM Watson文字转语音
voicechanger.io 是一个简单的在线变声应用,可以轻松地转换你的声音并添加各种效果。用户可以选择上传音频或使用麦克风录音,支持将文字生成语音,并能够播放或下载变换后的声音。
FakeYou是一个利用深度伪造技术创建高度真实自然的语音从书面文本的创新平台,允许用户生成模仿各种个人和名人声音的语音,适用于内容创作、娱乐和辅助工具等多个领域。
ElevenLabs在语音合成领域处于前沿,提供先进的AI语音生成和文本转语音功能,旨在为内容创作者和企业提供简化的自然语言语音转换体验。用户可以创造出极具真实感的配音、有声书及任何形式的口语内容。
DupDub是一个全面的内容创作平台,帮助用户轻松生成吸引人的内容,支持多种语言和场景,适用于市场营销、播客和创意写作等。用户可以利用人类般的声音和动画头像生动呈现内容,同时享受专业级的视频编辑工具,无需高技术能力或大预算。
WellSaid Labs是一个领先的AI语音平台,能够实时将文本转换为高质量的语音,广泛应用于企业培训、广告、教育等多个领域。
Voices AI 是一款顶级的AI语音生成器,可以快速将文本转换为真实的语音,支持多种名人和政治家的声音,适用于播客、营销等多种场景。
Parler-TTS 是一种开源的轻量级文本转语音 (TTS) 模型,可以生成具有给定说话者风格(性别、音调、说话风格等)的高质量、自然的语音。经过 45,000 小时公开演讲的训练,生成速度提高了 4 倍,支持多种语言的文本到语音转换。
Gotalk.ai是一个利用深度学习算法将文本转换为自然人声的AI语音生成器,旨在简化配音制作过程,适用于内容创作者、营销人员以及各行业专业人士。该平台提供丰富的定制选项,使高质量的配音制作变得易于实现,无需昂贵的录音设备或专业配音演员。
Beepbooply是一个尖端的AI语音生成器,利用先进的AI技术将文本转化为语音,支持900多种声音和80种语言,适用于多种音频内容的高效创建。