Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。
ChatTTS Site是一个开源的文本转语音项目,旨在帮助用户快速入门。您可以学习如何在本地使用ChatTTS,使用我们的在线演示,以及将ChatTTS集成到您的项目中。
Whisper是OpenAI推出的强大语音识别模型,支持多语言语音转文本,能够高精度地识别口语、方言,并自动生成字幕。它采用Transformer架构,具备强大的抗噪能力,适用于视频字幕生成、语音助手、会议记录等场景。Whisper支持99种语言的语音-文本转换,在低资源语种识别任务中WER降低至7.3%,流式处理架构实现200ms端到端延迟,自监督预训练机制减少对标注数据的依赖。
AI Turbos是一个全方位的AI驱动平台,旨在帮助用户处理各种内容创作任务。它具有先进的功能,如AI文本生成、图像创作、代码生成、自定义聊天机器人构建和语音转文本能力。
AI实时变声工具
VoiceLingo是一款iOS应用,允许用户将自己的声音转换为多种语言的音频。用户只需录音并选择目标语言,应用便会生成相应的音频输出,方便进行语言学习和交流。
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
Moshi是由Kyutai Labs开发的语音到语音模型的演示项目,托管在Modal的GPU上,并提供了一个命令行客户端以实现实时对话。
Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统,旨在利用无监督学习算法提高语音合成的质量和效率,同时支持多种语言,便于与现有系统集成。
RTVI-AI是一个新型的开放标准,旨在实现实时语音和视频推理。该项目提供了开源的JavaScript和React SDK,目前已可用,iOS、Android及其他平台的SDK也将在不久后推出。