FunASR 是一个旨在连接学术研究与工业应用的语音识别工具包。它支持工业级语音识别模型的训练与微调,帮助研究者和开发者更方便地进行语音识别模型的研究与生产,推动语音识别生态的发展。FunASR 提供了丰富的预训练模型和便捷的脚本与教程,支持推理和微调,涵盖语音识别、语音活动检测、标点恢复、语言模型、说话人验证、说话人分离等多种功能。
Whisper Edge 是一个专为边缘设备设计的实时语音转录工具,利用硬件机器学习加速器实现始终在线的语音识别。它支持 Jetson Nano 和 Coral Edge TPU 设备,能够在这些设备上高效运行,适用于多种场景,如智能家居、工业自动化和医疗设备。
BetterWhisperX是基于Whisper改进的自动语音识别工具,提供单词级别的时间戳和说话人识别功能,使得语音转文字更加精准和高效。它使用了先进的技术,如wav2vec2.0强制对齐,以提高时间戳的准确性,并支持多说话人的语音处理,适合各种场景下的应用。
AIQ Interview 是一款基于大型模型技术的先进AI在线面试助手和模拟工具,提供实时语音识别、二级响应提示和行业及职位的个性化调整,帮助用户提升求职竞争力。用户可以体验模拟面试、获得详细反馈报告,并根据目标公司和职位设定面试目标,上传简历以获得AI生成的回答。
Ichigo Llama 3.1是一个开源的Llama语音项目,类似于OpenAI的语音模式,经过50K小时的语音训练,支持7种语言,能够进行实时语音AI处理,并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练,旨在提供高效、准确的语音识别与生成能力。
WhisperS2T是一个为Whisper模型优化的语音转文本处理管道,支持多个推理引擎,旨在提供高准确率和灵活配置选项的语音识别解决方案。
Wenet STT Python是一个基于WeNet的语音识别库,旨在提供高效、准确的语音转文本功能。它支持多种语言,能够实时处理语音输入,并允许用户自定义模型以满足特定需求,易于与现有Python项目集成。
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
SEPIA 服务器支持通过WebSocket连接进行开源语音识别,易于自定义与扩展,兼容多种语音识别引擎。
sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统,支持多种语言和方言,具备低延迟性能,适合各种实时应用场景。它提供灵活的模型部署选项,并兼容 Kaldi 的最新技术,能够满足开发者的多样化需求。
DenoLyrics是一个基于AI模型的网络应用,支持143种语言,提供音频转录、字幕、文本摘要和多语言翻译。它使用大型模型Whisper进行实时语音识别。
SpeechPulse是一个利用计算机麦克风进行实时语音识别的应用程序,可以将语音转换为文本,支持在文本编辑器、网页浏览器和办公应用中输入,同时还可以转录音频/视频文件并生成字幕。
Buzz是一个可以实时转文字的多语言语音转文字应用,支持处理语音和视频文件,适用于各种场景。
Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具,提供翻译和转录两个任务,可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕,同时Buzz自带GUI界面,使用操作简单。
该课程提供了基于Transformer架构的音频处理技术,包含丰富的音频数据集和预训练模型,支持多种音频任务如分类、生成和转录,并结合实用示例和代码演示,帮助学习者掌握音频处理的最新技术。
免费无限音频、视频转文本转录工具允许用户无限制地将音频和视频文件转换为文本,提供快速准确的转录服务。用户只需上传音频或视频文件,即可轻松获取文本内容,支持无限次使用。
ListenRobo是一个由AI驱动的转录平台,能够准确地将音频和视频文件转录、总结和翻译成文本或字幕,专为内容创作者设计。用户只需注册并上传媒体文件,选择语言、格式和翻译选项,平台将生成准确的转录和字幕,并提供内容摘要。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型