2025年最强大的10个语音识别AI工具推荐 | 第 2 页

Music.AI官网 – 音频驱动的AI产品与服务平台

Music.AI允许公司和开发者构建和扩展音频驱动的AI产品和服务，提供定制化解决方案，支持多种用例。

0

声音设计语音识别音频制作音频处理

Tortus官网 – 医疗行业的先进AI工具

Tortus是一款专为医疗行业设计的先进AI工具，通过其专有接口O.S.L.E.R，旨在减轻行政负担，提高患者护理效率。它与电子健康记录（EHR）系统无缝集成，帮助医疗专业人员自动化日常任务，简化文档处理。

0

EHR系统集成医疗AI工具工作流自动化自动文档生成

AssemblyAI官网 – 构建AI语音应用的强大工具

AssemblyAI 提供先进的 AI 模型，实现精准的语音识别、转录和音频分析。其基于 API 的平台支持多种语言，提供人类级别的准确性，并适用于通话总结、内容审核和情感分析等应用，适合处理大量音频数据，具备高可靠性和正常运行时间。

0

AI音频分析实时语音转文本演讲者识别脏话过滤

Ello官网 – 创新的AI阅读教练，助力儿童阅读

Ello是一个旨在帮助幼儿园到三年级学生提高阅读技能的人工智能工具。它是一个互动的读书伴侣，利用其独特的Adaptive Learn™技术，实时适应每个孩子的学习节奏，使阅读变得有趣和富有互动性。Ello的首个产品是世界上最先进的阅读教练，结合了专有的语音识别和生成AI，旨在最大化所有儿童的学习潜力。

0

AI阅读教练互动学习儿童阅读工具自适应学习

ermine-ai开源项目 – 实时音频转录的浏览器客户端

由transformers.js提供支持的浏览器里100％客户端运行的实时音频转录，支持多种语言，易于集成到网页应用中。

0

transformers.js多语言支持实时字幕生成实时音频转录

SenseVoice.cpp开源项目 – 多语言音频理解的端侧工具

音频基础模型：支持多语言音频理解的端侧部署工具，具备极低推理延迟，适用于语音识别、语种识别、语音情感识别和声学事件分类/检测

0

声学事件分类多语言音频理解工具语种识别语音情感识别

SpeechT5开源项目 – 统一口语处理的多模态模型

SpeechT5是一个统一的多模态编码器-解码器预训练模型，专门用于口语处理任务，旨在通过有效的预训练提升语音识别和自然语言处理的性能。

0

统一多模态模型自然语言处理语音识别

chatgpt-conversation开源项目 – 与ChatGPT进行语音对话

通过语音与ChatGPT进行实时对话，让其用声音回应你，提供友好的交流体验。

0

多语言支持实时对话语音对话语音识别

fairseq开源项目 – 用于多种序列建模的开源工具包

fairseq是一个用于序列建模的开源工具包，支持多种自然语言处理和语音处理任务。

0

fairseq对话系统序列建模文本生成

MiniCPM-o-2_6官网 – 新型混合模型，具备多种功能

MiniCPM-o-2_6是Openbmb发布的一款新的混合模型，结合了多个先进模型，能够处理视觉、语音、视频流和OCR等多种任务，具有强大的功能和灵活的应用场景。

0

OCR功能多功能AI模型实时解析新型混合模型

streamlit-stt-app开源项目 – 实时语音转文本应用

这是一个基于Streamlit的实时网页语音转文本应用，能够快速将语音转换为文本，支持多种音频输入方式，易于使用和部署。

0

Streamlit实时语音转文本应用语音识别音频转录

WhisperBot开源项目 – 高效实时语音转文本系统

整合了Mistral大型语言模型的实时语音转文本系统，基于WhisperLive和WhisperSpeech，提供高性能和低延迟处理。

0

会议记录实时语音转文本系统语音助手语音识别

MiniCPM-o开源项目 – 手机上的多模态智能助手

MiniCPM-o 是一款轻量级多模态大语言模型，具有8B参数，能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理，性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能，支持多语言和多模态实时流媒体处理，广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。

0

个性化语音助手多模态大语言模型多模态直播移动设备智能应用

STT开源项目 – 深度学习语音转文本工具包

STT是一个经过实战验证的深度学习工具包，专注于语音转文本技术，适用于研究和生产环境。

0

多语言支持实时语音转文字开源工具深度学习语音转文本工具包

Spirit LM开源项目 – 一个强大的语音识别与生成模型

Spirit LM是一个端到端的语音模型，提供基础版和高表现力版，能够进行高效的语音识别和生成，支持直接使用语音标记等多种特性，适用于复杂任务的处理。

0

情感识别文本转语音自动语音识别语音生成

voicechat2开源项目 – 低延迟本地AI语音聊天

voicechat2是一款快速且完全本地化的AI语音聊天工具，使用WebSockets实现低延迟语音交互，支持本地运行语音识别、文本转语音以及大语言模型。它结合了SRT、LLM和TTS技术，能够在高性能硬件上实现极低的延迟，所有处理都在本地完成，确保数据隐私和安全性。支持多种模型如Whisper、Llama 3、VITS等，用户可以根据需求灵活选择。

0

低延迟语音交互文本转语音本地化AI语音聊天工具语音识别

Whisper Web开源项目 – 浏览器中直接运行的语音识别项目

Whisper Web 是一个开源项目，允许用户在浏览器中运行基于机器学习的语音识别，无需后端服务器。它利用 WebGPU 技术实现加速，用户可以轻松进行语音转文本，并支持将识别结果导出为 TXT 和 JSON 文件格式，完全开箱即用。

0

WebGPU加速开源项目浏览器语音转文本语音识别

Local Talking LLM开源项目 – 离线语音助手，随时随地可用

本地语音助手：无需联网即可在个人电脑上运行的语音助手，集成了语音识别和语音合成功能，打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验

0

个性化定制智能助手体验离线语音助手语音合成

小智 AI 聊天机器人开源项目 – 智能对话与互动体验

这是一个基于 ESP32 的 AI 聊天机器人项目，旨在提供智能对话和互动体验。该项目利用 ESP32 硬件平台，支持语音识别和合成，能够与用户进行自然语言对话，具备多种对话场景和功能，并且代码开源，易于修改和扩展。