实时语音识别

FunASR开源项目 – 端到端语音识别工具包

FunASR开源项目 – 端到端语音识别工具包

FunASR 是一个旨在连接学术研究与工业应用的语音识别工具包。它支持工业级语音识别模型的训练与微调，帮助研究者和开发者更方便地进行语音识别模型的研究与生产，推动语音识别生态的发展。FunASR 提供了丰富的预训练模型和便捷的脚本与教程，支持推理和微调，涵盖语音识别、语音活动检测、标点恢复、语言模型、说话人验证、说话人分离等多种功能。

多语言支持实时语音识别标点恢复模型微调

Whisper Edge开源项目 – 边缘设备实时语音转录

Whisper Edge开源项目 – 边缘设备实时语音转录

Whisper Edge 是一个专为边缘设备设计的实时语音转录工具，利用硬件机器学习加速器实现始终在线的语音识别。它支持 Jetson Nano 和 Coral Edge TPU 设备，能够在这些设备上高效运行，适用于多种场景，如智能家居、工业自动化和医疗设备。

Coral Edge TPUJetson Nano实时语音识别硬件机器学习加速器

BetterWhisperX开源项目 – 改进版自动语音识别工具

BetterWhisperX开源项目 – 改进版自动语音识别工具

BetterWhisperX是基于Whisper改进的自动语音识别工具，提供单词级别的时间戳和说话人识别功能，使得语音转文字更加精准和高效。它使用了先进的技术，如wav2vec2.0强制对齐，以提高时间戳的准确性，并支持多说话人的语音处理，适合各种场景下的应用。

实时语音识别时间戳生成自动语音识别工具语音转文字

AIQ interview官网 – 智能化在线面试助手

AIQ Interview 是一款基于大型模型技术的先进AI在线面试助手和模拟工具，提供实时语音识别、二级响应提示和行业及职位的个性化调整，帮助用户提升求职竞争力。用户可以体验模拟面试、获得详细反馈报告，并根据目标公司和职位设定面试目标，上传简历以获得AI生成的回答。

AI在线面试助手个性化面试反馈实时语音识别模拟面试工具

Ichigo Llama 3.1官网 – 开源的多语言语音处理项目

Ichigo Llama 3.1是一个开源的Llama语音项目，类似于OpenAI的语音模式，经过50K小时的语音训练，支持7种语言，能够进行实时语音AI处理，并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练，旨在提供高效、准确的语音识别与生成能力。

多语言支持实时语音识别开源语音处理项目智能应用

WhisperS2T开源项目 – 优化的语音转文本管道

WhisperS2T开源项目 – 优化的语音转文本管道

WhisperS2T是一个为Whisper模型优化的语音转文本处理管道，支持多个推理引擎，旨在提供高准确率和灵活配置选项的语音识别解决方案。

Whisper模型实时语音识别批量处理音频语音转文本

Wenet STT Python开源项目 – 基于WeNet的Python语音识别库

Wenet STT Python开源项目 – 基于WeNet的Python语音识别库

Wenet STT Python是一个基于WeNet的语音识别库，旨在提供高效、准确的语音转文本功能。它支持多种语言，能够实时处理语音输入，并允许用户自定义模型以满足特定需求，易于与现有Python项目集成。

Python语音转文本实时语音识别自定义模型语音识别库

VITA开源项目 – 开源实时视觉语音交互模型

VITA开源项目 – 开源实时视觉语音交互模型

VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型，能够理解图片和视频内容，并用语音回答用户的问题。

实时语音识别开源实时视觉语音交互模型自然语言对话语音问答

april-asr开源项目 – C语言写的语音转文本库

april-asr开源项目 – C语言写的语音转文本库

april-asr是一个用C语言开发的语音转文本(STT)库，具备高效的语音识别算法和实时转录功能，支持多种语言，具有可扩展的架构，便于集成到其他项目中，适用于多种应用场景。

C语言开发多语言支持实时语音识别嵌入式系统

SEPIA Speech-To-Text Server开源项目 – 开源语音识别服务器

SEPIA Speech-To-Text Server开源项目 – 开源语音识别服务器

SEPIA 服务器支持通过WebSocket连接进行开源语音识别，易于自定义与扩展，兼容多种语音识别引擎。

WebSocket语音识别实时语音识别开源语音识别服务器自定义语音识别模型

sherpa-ncnn开源项目 – 基于ncnn的高效实时语音识别

sherpa-ncnn开源项目 – 基于ncnn的高效实时语音识别

sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统，支持多种语言和方言，具备低延迟性能，适合各种实时应用场景。它提供灵活的模型部署选项，并兼容 Kaldi 的最新技术，能够满足开发者的多样化需求。

Kaldi兼容低延迟多语言支持实时语音识别

DenoLyrics官网 – 智能音频转文字应用

DenoLyrics是一个基于AI模型的网络应用，支持143种语言，提供音频转录、字幕、文本摘要和多语言翻译。它使用大型模型Whisper进行实时语音识别。

AI音频转录工具多语言翻译字幕生成实时语音识别

SpeechPulse官网 – 实时语音识别应用

SpeechPulse是一个利用计算机麦克风进行实时语音识别的应用程序，可以将语音转换为文本，支持在文本编辑器、网页浏览器和办公应用中输入，同时还可以转录音频/视频文件并生成字幕。

字幕生成实时语音识别语音转文本音频转录

Buzz官网 – 实时多语言语音转文字应用

Buzz是一个可以实时转文字的多语言语音转文字应用，支持处理语音和视频文件，适用于各种场景。

会议记录多语言语音转文字字幕生成实时语音转文字应用

Buzz开源项目 – 实时语音转文字工具

Buzz开源项目 – 实时语音转文字工具

Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具，提供翻译和转录两个任务，可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕，同时Buzz自带GUI界面，使用操作简单。

Whisper兼容工具实时语音转文字工具开源语音转录音频翻译工具

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

该课程提供了基于Transformer架构的音频处理技术，包含丰富的音频数据集和预训练模型，支持多种音频任务如分类、生成和转录，并结合实用示例和代码演示，帮助学习者掌握音频处理的最新技术。

Transformer架构数据集音频分类音频处理

Free Unlimited Audio, Video to Text Transcription – Chrome Extension-强大的音视频转文本工具

免费无限音频、视频转文本转录工具允许用户无限制地将音频和视频文件转换为文本，提供快速准确的转录服务。用户只需上传音频或视频文件，即可轻松获取文本内容，支持无限次使用。

Chrome扩展免费音视频转文本工具无限次使用适用于个人和商业用途

ListenRobo官网 – 智能转录与翻译平台

ListenRobo是一个由AI驱动的转录平台，能够准确地将音频和视频文件转录、总结和翻译成文本或字幕，专为内容创作者设计。用户只需注册并上传媒体文件，选择语言、格式和翻译选项，平台将生成准确的转录和字幕，并提供内容摘要。

AI驱动的转录平台YouTube字幕生成内容摘要生成多语言翻译

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3