Talk-to-ChatGPT是一个Google Chrome扩展,允许用户通过语音命令与ChatGPT AI互动,并接收语音回复。用户只需安装扩展并激活麦克风,就可以开始提问或与AI进行对话,同时通过文本转语音功能收听AI的回复。
GPTOnCall是一个由AI驱动的电话对话服务,通过聊天机器人提供即时答案、建议等,彻底改变了沟通方式,使用户能够获得电话上的AI助手支持。
SoundHound是一个语音AI平台,提供语音驱动设备、服务、车辆和移动应用的对话智能解决方案。它可以集成到各个行业和用例中,帮助用户构建自己的语音助手,访问内容领域。
AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。
Vocode是一个让用户能够轻松构建基于语音的LLM应用程序的工具。它支持实时流式对话,可以将应用程序部署到电话呼叫、Zoom会议等多种场景中。同时,它也适合构建个人助手或类似基于语音的棋类应用,具备模块化设计,便于扩展,且为开源项目,受益于社区的不断发展。
SiteAgent是一个结合了聊天机器人简便性和AI智能的在线客户互动平台,提供24/7支持,帮助用户快速找到产品和答案。通过AI语音互动,SiteAgent能够增强网站的客户体验和销售能力。
Kokoro 82M 是一个高质量的 TTS 模型,能够生成极高音频质量的语音,同时模型大小不到 300M,便于部署和使用。该模型在 T4 上能够快速生成语音,并支持通过架构训练其他语言,且只需不到 100 小时的音频数据进行训练。
由TII(Technology Innovation Institute)构建的一个40B参数的因果解码器模型,训练在精选语料库增强的1000B tokens的RefinedWeb上。
Babylon Voice 是一个基于语音识别技术的网络应用,用户可以通过语音命令与其功能进行交互,提升工作效率,并增强无障碍体验。
RevComm是一款AI驱动的IP电话,提供语音对话分析和智能PBX功能,旨在提高销售业绩、减少培训时间,并支持远程办公。
Uberduck是一个创新的AI工具,专注于合成音乐和音频项目中的人声。它为音乐人、制作人和开发者提供多种功能,旨在简化将AI生成的声音集成到各种项目中的过程。
ChatGPT Deutsch是德国人工智能领域的领先公司,主导着聊天机器人市场,致力于提供高效、智能的对话解决方案。
Nuance是一家在人工智能领域的先驱,提供先进的对话AI解决方案,旨在通过AI驱动的工具提升医疗、客户服务等多个行业的效率与用户体验。
AI Clone Voice Free 是一个在线工具,可以在几秒钟内创建高质量的人声克隆。用户无需特殊设备,只需在浏览器中操作即可轻松实现语音克隆。该项目旨在为用户提供便捷的语音合成体验,适用于各种应用场景。
fairseq是一个用于序列建模的开源工具包,支持多种自然语言处理和语音处理任务。
PolyAI是一个提供客户主导语音助手的平台,帮助企业持续提供最佳品牌体验,实现准确解决方案,并发掘数据驱动的商业机会。
Cartesia Sonic是一个极其快速的生成语音API,具有135毫秒的模型延迟。它可以帮助用户构建高质量、实时的语音体验,提供多样的声音库、即时语音克隆、语音混合和语音设计,支持速度和情感控制。
enterprisebot.ai是一个基于大型语言模型(如ChatGPT)的对话AI机器人,旨在通过公司数据改进客户和员工支持。它为多个行业提供定制化的解决方案,帮助企业提升服务效率和用户体验。