Qwen2-Audio是一个大规模音频语言模型,支持语音聊天和音频分析,能够处理各种音频信号输入并生成文本回应。
SpeechFlow是一个强大的语音转文本API,能够以高精度将声音转换为文本,支持14种语言。它提供自动语音识别(ASR)功能,能够将语音翻译成文本。该API在线可用,并提供易于集成到应用程序中的接口。
Splitter是一个瑞典研究公司,专注于开发基于AI的音频处理技术,服务于全球数百万用户。用户可以通过该平台上传音频文件,利用AI技术从音乐中分离乐器或人声。
textlesslib是一个专为无文本口语处理设计的库,集成了多种先进的AI模型,提供高效的音频特征提取,支持多种语言的处理,且开放源代码,易于扩展。
Llama3-S是一个扩展文本基础的大型语言模型,具备原生的‘听力’能力。通过早期融合模型训练,Llama3-S实现了声音识别与文本理解的有效结合,适用于多种语言处理任务。
Fish Audio Preprocessor 是一组用于音频处理的脚本,功能包括将视频/音频转换为wav格式、音频声音分离、自动音频切片、音频音量匹配、音频数据统计和音频重采样,旨在提升音频处理的效率和便捷性。
Audiogest.app 是一个音频转录和总结工具,可以轻松且经济地将音频内容转换为文本记录和有用的摘要。只需一键,即可将音频转换为文本和摘要,便于访问和分析音频内容。
ChatMirror是一款结合了人工智能技术的魔镜应用,旨在通过自然语言处理与用户进行互动,提供个性化的聊天体验。用户可以通过简单的语音或文本输入与它进行对话,获取信息、建议和娱乐。
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
这是一个基于 ESP32 的 AI 聊天机器人项目,旨在提供智能对话和互动体验。该项目利用 ESP32 硬件平台,支持语音识别和合成,能够与用户进行自然语言对话,具备多种对话场景和功能,并且代码开源,易于修改和扩展。
Belva是一个AI电话助手,改变了您与世界互动的方式。它通过处理预约、预订和客户问题解决等任务,简化了沟通。使用Belva非常简单,只需说明您的目标或任务,让AI助手为您处理剩下的事务。无论是预约还是解决客户问题,Belva凭借其先进的语言能力和类人理解力,提供无缝的体验。
Music.AI允许公司和开发者构建和扩展音频驱动的AI产品和服务,提供定制化解决方案,支持多种用例。
摩托罗拉与谷歌云合作,旨在将生成式AI技术应用于Razr智能手机系列,以提升用户体验,提供更先进的智能手机功能和服务。
Funny Duck是一个应用程序和平台,可以增强手机语音助手的功能,使其能够控制电脑、智能家居和DIY物联网设备。
AudioNinja是一个基于AI的平台,提供创新工具用于精确音频分析和处理,能够去除歌曲中的人声,分离单独元素,并找到任何歌曲的调性和BPM,非常适合播客制作人、音乐家和研究人员,凭借其先进技术,提供无与伦比的精度和准确性。
SwiftWhisper是基于Whisper.cpp二次封装后,让Swift方便调用的库,基于它可以方便的开发语音识别转文字类的Whisper应用。