与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
基于Zephyr 7B模型使用自定义语音进行本地AI对话,使用RealtimeSTT和faster_whisper进行转录,使用RealtimeTTS和Coqui XTTS进行语音合成,提供了一个实时的聊天机器人,可以进行语音交互。
ChatTTS Me 是一个将文本转化为自然流畅语音的平台,适用于聊天机器人和虚拟助手,提供优化和富有表现力的对话体验。
sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统,支持多种语言和方言,具备低延迟性能,适合各种实时应用场景。它提供灵活的模型部署选项,并兼容 Kaldi 的最新技术,能够满足开发者的多样化需求。
该项目允许用户通过上传短音频片段,快速创建任何名人的AI声音。用户只需输入要生成的文本即可获得所需的名人声音。
SiteAgent是一个结合了聊天机器人简便性和AI智能的在线客户互动平台,提供24/7支持,帮助用户快速找到产品和答案。通过AI语音互动,SiteAgent能够增强网站的客户体验和销售能力。
Typecast AI是一款在线AI语音生成器,能够将文本转换为真实感十足的语音,提供超过400种超现实的声音选择。用户可以为视频、演示、培训材料等创建定制化的生动音频内容。
JanitorAI是一个出色的平台,允许用户创建具有不同个性的NSFW虚构聊天角色。该平台由大型语言模型驱动,包括OpenAI的GPT模型,提供用户友好的界面,便于角色创建和定制。
ElevenLabs在语音合成领域处于前沿,提供先进的AI语音生成和文本转语音功能,旨在为内容创作者和企业提供简化的自然语言语音转换体验。用户可以创造出极具真实感的配音、有声书及任何形式的口语内容。
闻达是一个大型语言模型调用平台,支持多种模型如chatGLM-6B、chatRWKV、chatYuan,以及基于chatGLM-6B的chatPDF功能,方便用户进行知识库查询和文本生成。
一个开源工具包,用于预训练、微调和部署大型语言模型(LLMs)和多模态大语言模型。该工具包基于LLaMA-Adapter,提供更高级的功能,支持社区贡献与扩展。
Witlingo是一个在线平台,帮助企业部署高可用性的语音机器人和聊天机器人,实现有效的客户互动。它提供生成式AI工具,通过亚马逊Alexa和谷歌助手等语音解决方案促进社区互动。
OpenChit是一款支持文本和语音的原生AI聊天客户端,具有文本转语音播放功能(支持Siri和Azure TTS)。用户可以通过键入或语音命令与AI进行互动,并通过文本转语音功能收听AI的回复。