Music.AI允许公司和开发者构建和扩展音频驱动的AI产品和服务,提供定制化解决方案,支持多种用例。
Tortus是一款专为医疗行业设计的先进AI工具,通过其专有接口O.S.L.E.R,旨在减轻行政负担,提高患者护理效率。它与电子健康记录(EHR)系统无缝集成,帮助医疗专业人员自动化日常任务,简化文档处理。
AssemblyAI 提供先进的 AI 模型,实现精准的语音识别、转录和音频分析。其基于 API 的平台支持多种语言,提供人类级别的准确性,并适用于通话总结、内容审核和情感分析等应用,适合处理大量音频数据,具备高可靠性和正常运行时间。
Ello是一个旨在帮助幼儿园到三年级学生提高阅读技能的人工智能工具。它是一个互动的读书伴侣,利用其独特的Adaptive Learn™技术,实时适应每个孩子的学习节奏,使阅读变得有趣和富有互动性。Ello的首个产品是世界上最先进的阅读教练,结合了专有的语音识别和生成AI,旨在最大化所有儿童的学习潜力。
由transformers.js提供支持的浏览器里100%客户端运行的实时音频转录,支持多种语言,易于集成到网页应用中。
音频基础模型:支持多语言音频理解的端侧部署工具,具备极低推理延迟,适用于语音识别、语种识别、语音情感识别和声学事件分类/检测
SpeechT5是一个统一的多模态编码器-解码器预训练模型,专门用于口语处理任务,旨在通过有效的预训练提升语音识别和自然语言处理的性能。
通过语音与ChatGPT进行实时对话,让其用声音回应你,提供友好的交流体验。
fairseq是一个用于序列建模的开源工具包,支持多种自然语言处理和语音处理任务。
MiniCPM-o-2_6是Openbmb发布的一款新的混合模型,结合了多个先进模型,能够处理视觉、语音、视频流和OCR等多种任务,具有强大的功能和灵活的应用场景。
这是一个基于Streamlit的实时网页语音转文本应用,能够快速将语音转换为文本,支持多种音频输入方式,易于使用和部署。
整合了Mistral大型语言模型的实时语音转文本系统,基于WhisperLive和WhisperSpeech,提供高性能和低延迟处理。
MiniCPM-o 是一款轻量级多模态大语言模型,具有8B参数,能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理,性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能,支持多语言和多模态实时流媒体处理,广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。
STT是一个经过实战验证的深度学习工具包,专注于语音转文本技术,适用于研究和生产环境。
Spirit LM是一个端到端的语音模型,提供基础版和高表现力版,能够进行高效的语音识别和生成,支持直接使用语音标记等多种特性,适用于复杂任务的处理。
voicechat2是一款快速且完全本地化的AI语音聊天工具,使用WebSockets实现低延迟语音交互,支持本地运行语音识别、文本转语音以及大语言模型。它结合了SRT、LLM和TTS技术,能够在高性能硬件上实现极低的延迟,所有处理都在本地完成,确保数据隐私和安全性。支持多种模型如Whisper、Llama 3、VITS等,用户可以根据需求灵活选择。
Whisper Web 是一个开源项目,允许用户在浏览器中运行基于机器学习的语音识别,无需后端服务器。它利用 WebGPU 技术实现加速,用户可以轻松进行语音转文本,并支持将识别结果导出为 TXT 和 JSON 文件格式,完全开箱即用。
本地语音助手:无需联网即可在个人电脑上运行的语音助手,集成了语音识别和语音合成功能,打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验
这是一个基于 ESP32 的 AI 聊天机器人项目,旨在提供智能对话和互动体验。该项目利用 ESP32 硬件平台,支持语音识别和合成,能够与用户进行自然语言对话,具备多种对话场景和功能,并且代码开源,易于修改和扩展。
该项目展示了如何使用Transformers.js在浏览器中进行AI推理,特别是图像背景去除和语音识别,支持WebGPU加速,保证数据隐私,适合需要实时处理的应用。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
数字人Live2D项目:提供模块化扩展和Live2D人物模型控制,支持Docker快速部署和多平台访问,旨在创建具有互动性的数字人应用。
一个有趣的AI项目,可以通过短时间的音频源生成与原声音相似的音频,支持文本输入,基本可以做到以假乱真。
whisper-cpp-python是whisper.cpp的Python绑定,提供高效的语音识别功能,支持多种音频格式,具有简单易用的API和多线程处理能力。
这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音,并支持API调用。
Speech To Code项目让你通过口述来编写代码,结合语音识别和自然语言处理技术,能够将复杂的自然语言指令转换为多种编程语言的代码,理解上下文生成准确的代码。
ollama-voice-mac是一个在Mac上完全离线运行的语音助手,利用Mistral 7b模型进行自然语言处理,同时采用Whisper模型进行语音识别,提供用户友好的体验和多种语音指令支持。
Wordcab Transcribe是一个基于faster-whisper的ASR FastAPI服务器,利用多尺度自适应谱聚类技术实现说话人区分,提供高效、准确的语音转录服务。该项目支持实时处理,易于集成和扩展,适用于多种音频格式。
Deepgram Voice AI是一款先进的语音AI平台,利用人工智能技术提供高质量的实时语音转文本和文本转语音服务,适用于医疗转录、对话AI及客户支持等多个应用场景。Deepgram提供易于集成的API,支持多种语言,旨在改变企业与开发者整合语音识别与合成的方式。