STT是一个经过实战验证的深度学习工具包,专注于语音转文本技术,适用于研究和生产环境。
WhisperX是一个强制时间对齐的时间戳精确版Whisper语音识别工具,能够高效地进行多语言的语音识别,并生成带有精确时间戳的文本转录,适用于各种音频处理场景。
GPT-4o click to start是一个免费的GPT-4O驱动产品,提供与GPT-4相同水平的智能,配备强大的语音服务API,能够进行实时文本、视觉和音频处理。
WhisperPlus 是一款先进的语音转文本处理工具,致力于提供高准确率的语音识别,支持多种语言,并具备实时转录功能。它能够处理不同音质的音频,并提供用户友好的API接口,方便开发者进行集成和使用。
ChatTTS Site是一个开源的文本转语音项目,旨在帮助用户快速入门。您可以学习如何在本地使用ChatTTS,使用我们的在线演示,以及将ChatTTS集成到您的项目中。
旨在构建一个强大、高性能的异步 Whisper 服务 API,支持高扩展性和分布式处理需求,适用于大规模自动语音识别场景,并集成了多平台爬虫,如抖音和 TikTok。
一个简单的 Python 包,可以更轻松地在非公开或敏感数据以及没有互联网连接的计算机上运行大型语言模型 (LLM)。它支持本地环境,确保数据安全,适用于多种应用场景。
Voicefy是一个直观的平台,可以将文本转换为逼真的语音,提供多种语言和声音,以最大化内容的可访问性和互动性。用户只需将文本输入框中,选择所需的语言和声音,点击‘转换’按钮生成语音,然后点击‘播放’按钮收听语音,此外,还可以将语音下载为音频文件。
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
Moshi是由Kyutai Labs开发的语音到语音模型的演示项目,托管在Modal的GPU上,并提供了一个命令行客户端以实现实时对话。
音频基础模型:支持多语言音频理解的端侧部署工具,具备极低推理延迟,适用于语音识别、语种识别、语音情感识别和声学事件分类/检测
So-vits-svc(也称Sovits)是一款基于VITS、soft-vc、VISinger2等技术的开源免费AI语音转换软件。它能够快速学习目标声音特征,实现高质量的语音克隆与变声,适用于多种场景如AI配音、虚拟主播、音乐翻唱等。
OpenGait是一个灵活且可扩展的步态识别框架,旨在帮助用户设计自己的模型,并轻松与最新技术进行比较。