Voice.ai官网

整合了Mistral大型语言模型的实时语音转文本系统，基于WhisperLive和WhisperSpeech，提供高性能和低延迟处理。

一个让声音合成变得简单的接口项目，能帮用户轻松地将文字转换成各种语言和音色的语音，无论是常见的男女声还是特定语言的音色，都能轻松搞定，大大方便了需要语音合成的场景

Gemelo.ai通过可扩展的AI驱动语音和视觉克隆，彻底改变品牌与客户之间的互动，确保您的音频或视频内容在所有数字平台上始终具有吸引力和影响力。

VoicBot是一个基于AI的语音助手平台，能够提供超真实的语音交互体验。用户可以通过VoicBot Pro订阅，轻松将语音助手功能集成到他们的应用程序或网站中。VoicBot支持多种用例，包括智能家居设备的语音命令、语音控制的客户支持、语音启用的聊天机器人和语音搜索功能。

fairseq是一个用于序列建模的开源工具包，支持多种自然语言处理和语音处理任务。

noScribe是一个结合了OpenAI Whisper和pyannote技术的语音转录及说话人识别界面，旨在提供高效、用户友好的音频处理体验，支持多种音频格式的输入，能够快速准确地转录语音并识别说话人。

基于Whisper语音识别模型的超快音频转文字命令行工具，用Whisper Large v2在10分钟内转录300分钟音频。该工具优化了转录速度，支持多种音频格式，并具有高准确率的语音识别，适合批量处理大型音频文件。

本地语音助手：无需联网即可在个人电脑上运行的语音助手，集成了语音识别和语音合成功能，打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验

XTTS 是一个开源文本到语音（TTS）项目，旨在提供高质量的语音合成，支持多种语言，适用于不同的应用场景，如语音助手和有声书制作。

whisper-cpp-python是whisper.cpp的Python绑定，提供高效的语音识别功能，支持多种音频格式，具有简单易用的API和多线程处理能力。

IBM Watson文字转语音

ElevenLabs 是一款提供最具吸引力、丰富和逼真的语音的文本转语音和语音克隆软件，旨在为创作者和出版商提供讲故事的终极工具。

GeniusMindsAI 是一个基于AI的内容创作平台，提供文本生成、语音合成、语音转文本、图像创作和代码生成等高级工具，支持多语言、团队协作和增强的安全措施，旨在为各行各业的用户提供高价值的解决方案。

OpenAI的Whisper高质量语音识别模块C/C++移植版，支持在iOS和Android上运行，提供真人级别的识别效果，完全免费，具有开源、低内存和跨平台特性，适合资源受限环境。

ModelScope魔搭开源的ClearerVoice-Studio项目，提供语音增强、语音分离、目标说话人提取等功能，旨在提升语音处理的质量和效率。

相关导航