Paraformer-Large 是由阿里巴巴开发的开源工业级自动语音识别(ASR)模型,专注于中文语音识别任务。该模型在Modelscope上的下载量超过1.436亿次,显示出其在开发者和研究者中的广泛受欢迎。Paraformer-Large 采用非自回归端到端语音识别技术,支持并行推理,特别适合GPU使用,能够高效处理大规模语音数据。模型训练于6万小时的普通话数据集,确保其在中文语音识别任务中的鲁棒性和准确性。
Langony是一个基于AI的语言学习应用,提供互动3D课程、语音识别和语音助手,帮助用户提升语言技能。支持多种语言,包括英语、西班牙语、德语、法语、俄语和意大利语。
Llama3-S是一个扩展文本基础的大型语言模型,具备原生的‘听力’能力。通过早期融合模型训练,Llama3-S实现了声音识别与文本理解的有效结合,适用于多种语言处理任务。
SoundHound是一款创新的语音驱动AI和音乐识别技术,彻底改变了用户与设备的互动方式,提供快速识别周围音乐的功能,深入了解艺术家作品,甚至可以通过唱歌或哼唱来找到你脑海中萦绕的旋律。
Form2Agent AI是一个语音辅助的AI解决方案,通过提供精准的数据录入、内容处理以及与网页和移动应用的无缝集成,来增强用户体验。
该项目提供免费且高质量的AI文本转语音和语音生成服务,能够在几秒钟内将文本转换为真实的语音,适用于各种应用场景,提升用户体验。
Whisper API是一个强大的AI驱动的转录工具,利用OpenAI的Whisper模型,为音频文件提供准确可靠的转录服务。用户可以轻松地将Whisper的转录功能集成到他们的应用、服务或工作流程中。
HeyLuna.ai 是一个多模态的人工智能虚拟助手,具备长期记忆功能,能够理解用户的需求,像朋友一样陪伴,并帮助用户完成日常任务。
MyVoice - Speech Assistant 是一款文本转语音工具,旨在帮助失去说话能力或即将失去说话能力的人士,包括失语症患者、肌萎缩侧索硬化症患者和其他语言障碍者。
Neoform AI致力于打破语言障碍,丰富数百万人的数字体验,提供针对非洲方言的AI模型,赋能非洲的声音。
Lazybird 是一个AI语音合成平台,支持100多种语言,提供数千种角色声音和背景音乐,旨在为用户提供自然流畅的语音体验。它可以用于各种场景,如视频配音、语音助手等,帮助用户轻松创建高质量的语音内容。
Ichigo Llama 3.1是一个开源的Llama语音项目,类似于OpenAI的语音模式,经过50K小时的语音训练,支持7种语言,能够进行实时语音AI处理,并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练,旨在提供高效、准确的语音识别与生成能力。
Lookahead decoding是一种创新的并行解码算法,加速大LLM的推理过程,提升模型生成文本的速度,适用于需要快速回应的应用。
XTTS 是一个开源文本到语音(TTS)项目,旨在提供高质量的语音合成,支持多种语言,适用于不同的应用场景,如语音助手和有声书制作。
一个Demo项目,基于它可以构建自己的React项目,实现与ChatGPT大模型的实时语音交流。
整合了Mistral大型语言模型的实时语音转文本系统,基于WhisperLive和WhisperSpeech,提供高性能和低延迟处理。
Moshi是一个实时对话的语音文本基础模型,使用先进的流式神经音频编解码器Mimi,支持双向语音流处理,具有低延迟和高效率的特点。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
GLM-4-Voice 是由智谱 AI 开发的端到端中英语音对话模型,能够实时理解和生成中英文语音,并具备修改语音情感、语调、语速和方言等属性的功能。该模型支持情感共鸣、打断功能、多语言多方言,适用于灵活对话互动。
阿里巴巴云计算推出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接生成文本回复,为对话系统和音频处理任务提供强大支持。
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
Amy.pro是一个工作场所助手,旨在提升企业协作空间的效率和便利性。它可以通过简单的语音命令进行会议安排、任务管理、招聘、信息访问及应用集成等功能,帮助用户简化工作流程,提升团队协作能力。
Retell AI是一个API,允许开发者构建类人声的语音代理,通过集成自定义的语言模型和WebSocket技术来实现与用户的语音交互。
LMNT是一个语音合成平台,提供与专业配音演员相媲美的高质量语音,支持即时克隆独特表达,并拥有超低300毫秒延迟,确保流畅的高质量对话。
VoiceChatFlow是一个集成AI聊天机器人和语音助手的平台,旨在提升客户支持和用户参与度。用户可以通过简单的HTML代码将其嵌入到网站中,从而改善客户互动体验。
Lazy是一款创新的智能家居产品,旨在通过智能化的解决方案提升用户的生活质量和居家体验。它结合了先进的人工智能技术,能够自动化家庭中的多个设备,实现智能控制和高效管理,让家庭生活更加便捷和舒适。
Snowball AI是一个基于ChatGPT的WhatsApp机器人,旨在通过文本和语音与用户互动。用户可以在WhatsApp内进行聊天、玩游戏等,体验便捷的人工智能服务。