基于Zephyr 7B模型使用自定义语音进行本地AI对话,使用RealtimeSTT和faster_whisper进行转录,使用RealtimeTTS和Coqui XTTS进行语音合成,提供了一个实时的聊天机器人,可以进行语音交互。
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
Replican AI 是一个多语言、多模态的互动人类化AI聊天机器人,能够根据语音命令为全球用户提供服务,支持多种语言,执行多种任务,像一个人工智能人类一样工作。
Vocode是一个让用户能够轻松构建基于语音的LLM应用程序的工具。它支持实时流式对话,可以将应用程序部署到电话呼叫、Zoom会议等多种场景中。同时,它也适合构建个人助手或类似基于语音的棋类应用,具备模块化设计,便于扩展,且为开源项目,受益于社区的不断发展。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型