这是一个专为边缘设备设计的Transformer模型推理库,旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录,相较于最知名的实现速度快2倍,非常适合在资源受限的环境中使用。
一个用Rust编写的轻量神经网络推理引擎,能将ONNX格式的机器学习模型高效运行在各种平台上,特别适合需要高性能和跨平台支持的场景。
Whisper for Large Audio 是一个简单的解决方案,旨在帮助用户处理大音频文件的转录问题。用户可以直接在浏览器中将任意大型音频文件分割,并利用 OpenAI 的 Whisper 对分割后的部分进行转录,只需一键即可获得完整的转录文本,消除了文件大小限制和手动操作的繁琐。
Wordcab Transcribe是一个基于faster-whisper的ASR FastAPI服务器,利用多尺度自适应谱聚类技术实现说话人区分,提供高效、准确的语音转录服务。该项目支持实时处理,易于集成和扩展,适用于多种音频格式。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
微软的Phi-4算是海外小参数模型的代表产品,具有140亿参数,数学能力超越GPT-4。该模型采用高质量的合成数据集和精选的有机数据,结合创新的后训练技术,展现出在各类基准测试中的超常表现。
Video2Text 是一个基于 OpenAI Whisper 的网页服务,能够准确地将视频转换为文本,帮助研究人员、教育工作者、记者和内容创作者轻松进行视频转录。
一个Mamba的最小化实现。Mamba是CMU和普林斯顿的研究成功。这种SSM架构在语言建模上与Transformers不相上下,而且还能线性扩展,同时具有5倍的推理吞吐量。
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。