GPT-4o 是 OpenAI 于 2024 年 5 月发布的最新大型语言模型,具备多模态能力,能够处理文本、图像和音频。它比前代模型 GPT4-Turbo 更快、更便宜,并在多语言和视觉任务中表现出色。GPT-4o 支持实时语音交互和代码生成,适用于广泛的应用程序开发和个人使用场景。
Mahilo是一个灵活的多Agent系统框架,旨在让Agent在人类监督下协同工作,共享上下文信息,从而提升复杂任务的处理效率。该框架支持实时语音交互,采用WebSocket实现多用户同时通信,提供灵活的通信模式,满足多种场景需求。
Open-LLM-VTuber是一个开源的虚拟AI伙伴项目,旨在通过实时语音交互和Live2D动态形象技术,为用户提供沉浸式的互动体验。项目支持跨平台运行,适配Windows、macOS和Linux等多种操作系统,让用户随时随地与AI进行免提语音互动。通过集成Live2D技术,Open-LLM-VTuber不仅能够提供语音交互,还能展示动态形象,增强用户的互动体验。
Vocode是一个让用户能够轻松构建基于语音的LLM应用程序的工具。它支持实时流式对话,可以将应用程序部署到电话呼叫、Zoom会议等多种场景中。同时,它也适合构建个人助手或类似基于语音的棋类应用,具备模块化设计,便于扩展,且为开源项目,受益于社区的不断发展。
VideoChat是一个实时语音交互的数字人平台,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。用户可以自定义数字人的形象和音色,支持音色克隆,实现个性化的交流体验。此外,该平台的首包延迟可以低至3秒,确保流畅的互动。
Retell AI是一个API,允许开发者构建类人声的语音代理,通过集成自定义的语言模型和WebSocket技术来实现与用户的语音交互。
ElevenLabs在语音合成领域处于前沿,提供先进的AI语音生成和文本转语音功能,旨在为内容创作者和企业提供简化的自然语言语音转换体验。用户可以创造出极具真实感的配音、有声书及任何形式的口语内容。
Voiser是一个基于AI的平台,提供75种语言的精准语音转文本和自然发音的文本转语音服务,非常适合内容创作者、播客和寻求高质量配音和转录的企业使用。
Neoform AI致力于打破语言障碍,丰富数百万人的数字体验,提供针对非洲方言的AI模型,赋能非洲的声音。
实时语音助手,通过Agora和OpenAI技术实现低延迟、高质量的语音交互,让语音交流更智能
OpenChatKit是一个开源项目,提供强大的基础以创建专用和通用的聊天机器人,适用于各种应用场景。
Botticelli是一个开源的.NET Core框架,用于构建与数据库、队列代理、语音引擎和AI引擎集成的通用机器人。用户可以通过从GitHub克隆框架库来开始使用Botticelli,然后轻松构建和部署跨平台支持的机器人,集成数据库、AI解决方案、语音合成器和队列代理。
Voicefy是一个直观的平台,可以将文本转换为逼真的语音,提供多种语言和声音,以最大化内容的可访问性和互动性。用户只需将文本输入框中,选择所需的语言和声音,点击‘转换’按钮生成语音,然后点击‘播放’按钮收听语音,此外,还可以将语音下载为音频文件。
voicechat2是一款快速且完全本地化的AI语音聊天工具,使用WebSockets实现低延迟语音交互,支持本地运行语音识别、文本转语音以及大语言模型。它结合了SRT、LLM和TTS技术,能够在高性能硬件上实现极低的延迟,所有处理都在本地完成,确保数据隐私和安全性。支持多种模型如Whisper、Llama 3、VITS等,用户可以根据需求灵活选择。
这个开源项目是一个基于 OpenAI API 的对话引擎,它使用了官方 ChatGPT 模型实现。它可以通过 Joel GitHub 上的代码实现。
Dabarqus 提供了一种实用的方法,可以在不到 9 行代码的情况下将检索增强生成(RAG)添加到您的应用程序中。用户可以与 PDF 文档进行对话,总结电子邮件和消息,并消化各种事实、数据和报告。
Jinni AI通过WhatsApp使用ChatGPT,帮助用户处理日常任务,加快响应时间,从而简化工作流程。用户可以利用Jinni AI轻松规划旅行、生成内容创意、管理社交媒体,并通过语音消息进行无缝对话。
Desura是一个革命性的在线游戏网站,旨在为玩家提供独特且吸引人的游戏体验。我们致力于创建一个沉浸式的世界,让玩家能够享受由我们及其他开发者开发的游戏。该平台特别针对6岁以上儿童,首次尝试使用AI进行互动语音交流。