Centaurus是一种由广义状态空间模型(SSM)块组成的新型神经网络,其设计灵感来源于卷积神经网络(CNN)。通过将SSM操作视为训练期间的张量收缩,并优化张量收缩顺序,Centaurus显著提高了训练效率。它在网络大小、性能、内存和计算效率之间取得了平衡,尤其在音频处理任务中表现优异,包括关键词识别、语音去噪和自动语音识别(ASR)。Centaurus是首个完全基于状态空间的ASR网络,无需依赖非线性递归(如LSTMs)、显式卷积(CNNs)或注意力机制,仍能实现竞争性能。
Paraformer-Large 是由阿里巴巴开发的开源工业级自动语音识别(ASR)模型,专注于中文语音识别任务。该模型在Modelscope上的下载量超过1.436亿次,显示出其在开发者和研究者中的广泛受欢迎。Paraformer-Large 采用非自回归端到端语音识别技术,支持并行推理,特别适合GPU使用,能够高效处理大规模语音数据。模型训练于6万小时的普通话数据集,确保其在中文语音识别任务中的鲁棒性和准确性。
NVIDIA NeMo是一个可扩展的云原生生成式AI框架,专为研究人员和PyTorch开发者设计,支持大语言模型(LLM)、多模态模型(MM)、自动语音识别(ASR)、文本转语音(TTS)和计算机视觉(CV)等领域。它旨在帮助用户高效地创建、定制和部署新一代AI模型,利用现有的代码和预训练模型检查点。NeMo基于Python配置,采用模块化抽象,支持在成千上万个GPU上进行大规模实验。
Moonshine是一款为边缘设备设计的自动语音识别模型,速度比Whisper快5倍,且保持相同的准确性,适用于实时和资源受限的应用场景,如现场转录和语音命令识别。它支持可变长度输入,具备低延迟和高效率,能够在本地设备上运行,无需联网,适合各种实时语音识别任务。
Voicetapp是一款先进的AI软件,旨在将音频或视频内容转化为准确的文本转录。用户可以轻松地将播客、电话会议、视频及其他音频或视频文件转换为文本,具有极高的精确度。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
Spirit LM是一个端到端的语音模型,提供基础版和高表现力版,能够进行高效的语音识别和生成,支持直接使用语音标记等多种特性,适用于复杂任务的处理。
Transformers.js 是一个 JavaScript 库,允许用户在浏览器中直接运行预训练的 Transformer 模型,支持自然语言处理、计算机视觉、音频处理和多模态任务。它使用 ONNX Runtime 在浏览器中高效运行模型,并支持将 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX 格式。
SpeechFlow是一个强大的语音转文本API,能够以高精度将声音转换为文本,支持14种语言。它提供自动语音识别(ASR)功能,能够将语音翻译成文本。该API在线可用,并提供易于集成到应用程序中的接口。
SubTitles.Love 是一款基于人工智能的字幕编辑工具,旨在帮助用户为社交媒体视频添加字幕,从而增强观众互动。它提供了简单的编辑界面,具备自动语音识别功能,并支持超过10种语言。用户只需上传视频,系统将以95%的准确率自动生成字幕,用户可以调整字幕样式,并下载适合社交媒体平台的成品视频。
WAAS是一个平台,提供OpenAI的Whisper自动语音识别(ASR)系统的图形用户界面和API,用户可以通过直接访问API或使用提供的GUI接口进行音频文件的转录和管理。
Wordcab Transcribe是一个基于faster-whisper的ASR FastAPI服务器,利用多尺度自适应谱聚类技术实现说话人区分,提供高效、准确的语音转录服务。该项目支持实时处理,易于集成和扩展,适用于多种音频格式。
Whisper for Large Audio 是一个简单的解决方案,旨在帮助用户处理大音频文件的转录问题。用户可以直接在浏览器中将任意大型音频文件分割,并利用 OpenAI 的 Whisper 对分割后的部分进行转录,只需一键即可获得完整的转录文本,消除了文件大小限制和手动操作的繁琐。
RapidTranscribe是一个基于人工智能的音频和视频转录服务,能够在几秒钟内将音频和视频文件转换为准确的文本。它支持100多种语言,提供说话者分离、YouTube集成、可编辑/可下载的报告,并兼容常见的音频和视频格式。
TranscribeAudio是一个创新的自动转录服务,旨在简化将音频文件转换为书面文本的过程。无论是采访、会议还是录音,该工具都提供简单高效的解决方案。
一个超快速的语音识别工具,基于OpenAI的Whisper Large v3模型,能把长达5小时的音频在不到2分钟内转写成文字。
Voqul是一个基于AI的音频处理平台,用户可以录制自己的声音或上传音频文件,并从150多种声音中选择,以实现音频的多样化转换。
旨在构建一个强大、高性能的异步 Whisper 服务 API,支持高扩展性和分布式处理需求,适用于大规模自动语音识别场景,并集成了多平台爬虫,如抖音和 TikTok。