AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。
SoundHound是一个语音AI平台,提供语音驱动设备、服务、车辆和移动应用的对话智能解决方案。它可以集成到各个行业和用例中,帮助用户构建自己的语音助手,访问内容领域。
OpenAI的Whisper高质量语音识别模块C/C++移植版,支持在iOS和Android上运行,提供真人级别的识别效果,完全免费,具有开源、低内存和跨平台特性,适合资源受限环境。
Modulate通过其先进的ToxMod解决方案,利用AI技术提供实时语音聊天的主动管理,重塑游戏社区的安全标准,维护玩家隐私与自由。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
ClassroomIO是一个开源平台,旨在为技术训练营、个人教育者和培训企业提供教学与学习的集中管理,提升工作效率达10倍。
Desura是一个革命性的在线游戏网站,旨在为玩家提供独特且吸引人的游戏体验。我们致力于创建一个沉浸式的世界,让玩家能够享受由我们及其他开发者开发的游戏。该平台特别针对6岁以上儿童,首次尝试使用AI进行互动语音交流。
SmartNPC是一个提供AI驱动角色的平台,旨在帮助游戏开发者创建逼真且沉浸式的互动体验。该平台允许开发者通过提供的API和SDK将AI角色集成到他们的游戏中,支持多种语言的个性化语音互动,面部表情、手势和动作。SmartNPC适用于各种游戏类型,如角色扮演游戏、动作冒险游戏和模拟类游戏,能够根据玩家的行为和选择动态调整非玩家角色的响应。
EazyRAG是一个基于ChatGPT的Cmd + K工具,旨在减少50%的客户支持请求,并将入职体验提升10倍,且能够无缝集成到现有的ChatBot提供商的用户界面中。
Speechllect是一个基于AI的解决方案,提供实时的语音转文本和文本转语音功能,利用SenseTheory数学理论分析用户发音的每个单词的意义,从而实现准确且具有上下文意义的转换。
SWE-ReX是一个AI助手的沙盒代码执行框架,支持本地或云端运行,使得AI能够轻松执行各种命令,同时确保代码的安全性和灵活性。
Personal-Friend.com是一个基于AI的平台,提供可定制的互动AI朋友,支持实时聊天、学习和适应。用户可以与AI朋友进行个性化对话,体验转变,满足各种情感需求。
Voicemod是一个全面的、由AI驱动的工具,旨在为使用Windows和macOS平台的游戏玩家和内容创作者等广泛用户群体提升音频体验。这款多功能软件允许用户实时修改和转换他们的声音,提供了一系列功能和优势,显著增强了在线互动和内容创作的体验。
Q是一个先进的AI语音聊天机器人,基于最新的GPT模型。它具有可定制的角色和语音聊天、图像识别与生成等功能,不仅是聊天机器人,更是一个拥有自己思想的人类助手!
Sensei 是一个 Mac 应用程序,利用 OpenAI API 的 ChatGPT 技术实现聊天。它是一个开源项目,能够提供一个原生的 Mac 客户端,实现自然语言处理的功能。
ElevenLabs在语音合成领域处于前沿,提供先进的AI语音生成和文本转语音功能,旨在为内容创作者和企业提供简化的自然语言语音转换体验。用户可以创造出极具真实感的配音、有声书及任何形式的口语内容。
PinMy是一个视觉协作中心,用户可以在图像上标注、分享见解并管理团队反馈。用户可以直接在图像上固定语音和文本评论,确保精确的位置和清晰的沟通。PinMy提供移动应用和网页应用,方便用户在多个设备上进行视觉协作。
开源复现Moshi模型训练过程,包括音频编解码器Mimi及文本和音频的层次化语言模型。该项目为研究人员和开发者提供了一个完整的框架,用于训练和实现先进的语音和文本处理能力,支持实时对话和多模态学习。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型