用Rust语言实现的超快文本转语音(TTS)引擎,只需一个命令就能合成高质量语音,支持多种语言,让语音合成变得简单快捷
实时创建、自定义和与您的 AI 角色/同伴交谈(全部在一个代码库中!使用LLM OpenAI GPT3.5 / 4,Anthropic Claude2,Chroma Vector DB,Whisper Speech2Text,ElevenLabs Text2Speech)
AI实时变声工具
Firebay Studios是领先的AI音频工作室和播客制作及推广机构,提供高效、优质且经济实惠的音频解决方案,帮助用户启动和发展播客。其核心功能包括AI语音生成器和文本转语音转换,支持多种语言、风格和声音,创造逼真的音频体验。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
Moshi是一个实时对话的语音文本基础模型,使用先进的流式神经音频编解码器Mimi,支持双向语音流处理,具有低延迟和高效率的特点。
ClearCypherAI是一家美国的AI初创公司,专注于生成音频解决方案和数据集。该公司提供尖端的AI技术,包括文本转音频转换、音频转文本转录和音频间的交流。其使命是提供驱动AI的多语言、多模式和实时语音智能。
Typecast AI是一款在线AI语音生成器,能够将文本转换为真实感十足的语音,提供超过400种超现实的声音选择。用户可以为视频、演示、培训材料等创建定制化的生动音频内容。
VoiceLingo是一款iOS应用,允许用户将自己的声音转换为多种语言的音频。用户只需录音并选择目标语言,应用便会生成相应的音频输出,方便进行语言学习和交流。
Whisper Web 是一个开源项目,允许用户在浏览器中运行基于机器学习的语音识别,无需后端服务器。它利用 WebGPU 技术实现加速,用户可以轻松进行语音转文本,并支持将识别结果导出为 TXT 和 JSON 文件格式,完全开箱即用。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。