2025年最强大的10个语音转文本AI工具推荐

LLMChat是一个专注于提供直观AI聊天体验的项目，号称'最直观的统一AI聊天界面'，旨在让AI交互变得前所未有地简单。它支持多种语言模型，包括Ollama，满足不同用户需求。项目具有丰富的插件库，如网络搜索插件，以及本地存储功能以确保数据安全和快速访问。

0

AI插件库PWA应用多语言模型支持开源AI聊天工具

Oliva Multi-Agent Assistant开源项目 – 开源语音RAG助手

Oliva 是一款开源语音 RAG 助手，能够通过自然语音实现对 Qdrant 向量数据库的实时搜索。它由 Deluxer 团队开发，集成了 Deepgram（语音转文本）和 LiveKit（实时语音通信），支持多智能体协作和语义搜索。Oliva 适用于知识库搜索、智能客服、语音驱动 AI 应用等场景，旨在提升 AI 交互的自然性和效率。

0

LangChain工作流多智能体协作实时语音通信开源语音RAG助手

Scribe官网 – 全球最准确的语音转文本模型

Scribe 是 ElevenLabs 开发的语音转文本（ASR）模型，支持 99 种语言，能够处理真实世界的音频，提供词级时间戳、说话人分离和音频事件标记（如笑声），并以结构化 JSON 格式返回结果。它在基准测试中表现优异，特别是在意大利语（98.7%）和英语（96.7%）等语言中。Scribe 适用于会议摘要、电影字幕和歌词转录，未来可能支持实时应用。

0

ASR模型会议摘要字幕生成语音转文本

语音转文本官网 – 多语言音频转文本工具

OpenAI的语音转文本项目基于Whisper模型，旨在将音频转化为文本，特别适合处理多种语言和方言。它支持多种音频格式，文件上传限制为25 MB，输出格式包括JSON和文本。项目功能强大，适用于会议记录、语音笔记和多语言翻译等场景。

0

Whisper模型多语言支持实时转录语音转文本

Rivet开源项目 – 可视化AI编程环境

Rivet是一款开源的可视化AI编程环境和TypeScript库，旨在简化复杂AI代理和提示链的创建，并将其嵌入应用程序中。它为开发人员和研究人员提供了一个直观的途径来创建和部署复杂的AI代理，支持多种LLM（如OpenAI GPT-3.5、GPT-4、Anthropic Claude系列等）和嵌入/向量数据库（如OpenAI Embeddings、Pinecone等），并提供了丰富的功能和支持，使其成为开发创新AI应用的宝贵工具。

0

AI代理LLM模型TypeScript库可视化AI编程环境

Ultravox开源项目 – 开源多模态实时语音模型

Ultravox 是一个开源的多模态实时语音模型，其语音理解性能接近 GPT-4o。它能够直接理解文本和人类语音，无需单独的自动语音识别（ASR）系统。目前支持文本输出，首次响应时间仅为 150 毫秒，生成速度约为 60 token/秒。基于 Llama3.1-8B 和 whisper 构建，通过多模态投影器直接将音频转换为高维空间，显著提升了响应速度。

0

多模态实时语音模型开源语音模型语音交互语音转文本

SoftWhisper开源项目 – 高效音频/视频转录工具

SoftWhisper是一款基于Whisper.cpp的音频/视频转录工具，能够将音频/视频中的音频内容快速转换为文字。该工具兼容性强，支持所有平台，性能优异，能够在2-3分钟内转录2小时的音频，相比Whisper API，转录速度显著提升。SoftWhisper支持多种音频格式，轻量级且易于集成，具备高准确率的语音识别功能，适用于多种应用场景。

0

多语言语音识别视频字幕生成语音转文本音频转录工具

Whisper-Input开源项目 – 键盘语音输入工具

Whisper-Input 是一个实用的键盘语音输入工具，用户通过按下Option键开始语音输入，松开后调用语音转文本模型进行快速转译。它还支持通过按下Shift + Option组合键实现中文语音输入转译为多语言文本输出。目前该工具仅支持在终端上运行使用，未来将推出macOS客户端，为用户提供更便捷的语音输入体验。

0

多语言文本输出开源项目语音转文本语音输入工具

VoiceMind开源项目 – 开源语音理解框架

VoiceMind是一个专为语音理解任务设计的开源框架，为开发者提供构建高效音频分析系统的工具。它支持语音转文本与语义解析，优化语音交互体验。

0

分布式计算加速实时语音处理开源语音理解框架语义解析

Vox Box开源项目 – 多功能语音转换服务器

Vox Box 是一个兼容 OpenAI API 的文本转语音和语音转文本服务器，支持 Whisper、FunASR、Bark 和 CosyVoice 等后端模型。它能够处理多种语言和应用场景，提供广泛的语音选项，满足多样化的语音合成需求，并能够无缝集成到现有的 AI 工作流程中。

0

OpenAI API 兼容多功能语音转换服务器文本转语音语音转文本