Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
ChatTTS Site是一个开源的文本转语音项目,旨在帮助用户快速入门。您可以学习如何在本地使用ChatTTS,使用我们的在线演示,以及将ChatTTS集成到您的项目中。
Whisper Web 是一个开源项目,允许用户在浏览器中运行基于机器学习的语音识别,无需后端服务器。它利用 WebGPU 技术实现加速,用户可以轻松进行语音转文本,并支持将识别结果导出为 TXT 和 JSON 文件格式,完全开箱即用。
GPT-4o click to start是一个免费的GPT-4O驱动产品,提供与GPT-4相同水平的智能,配备强大的语音服务API,能够进行实时文本、视觉和音频处理。
开源复现Moshi模型训练过程,包括音频编解码器Mimi及文本和音频的层次化语言模型。该项目为研究人员和开发者提供了一个完整的框架,用于训练和实现先进的语音和文本处理能力,支持实时对话和多模态学习。
End Boost 是一款自动混音和母带处理音频的软件,利用 Alex Audio Butler 的 AI 算法,根据预设混合并优化语音、音乐和音效。用户只需将音频导入软件,End Boost 将自动应用自定义的音量曲线、压缩、限制和降噪,提供高质量的整体混音。
Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
Unreal Speech是一个创新的人工智能工具,旨在将文本转换为自然流畅的语音,适用于播客、视频和实时应用等多种内容生成。它具有高性价比、高质量音频输出和灵活的API,满足不同用户的需求。
SpeechT5是一个统一的多模态编码器-解码器预训练模型,专门用于口语处理任务,旨在通过有效的预训练提升语音识别和自然语言处理的性能。
Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。
S.A.T.U.R.D.A.Y是一个用于处理WebRTC、音频和AI的工具箱,基于Pion、whisper.cpp和Coqui TTS构建。