RWKV-SpeechChat是一个基于3B RWKV模型的实时对话脚本,支持多种音频任务,包括语音识别、翻译、问答等,旨在提供类似GPT-4的智能交互体验。该脚本支持本地部署,仅需6GB显存即可运行,适用于多种语音处理场景。
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
aichat 是一个在终端中使用 ChatGPT/GPT-3.5/GPT-4 的小工具,用户可以通过它与 AI 进行自然语言对话,或使用命令模式发送特定指令,从而实现更精准的交互。
这个开源项目是一个智能、多功能的通用数据库SQL客户端和报表工具。它不仅可以与各种数据库进行交互,执行SQL查询和操作,还具备ChatGPT功能,可以进行智能对话和自然语言查询。这使得用户可以通过简单的对话方式与数据库进行交互,提取需要的信息或生成报表。该项目的目标是提供一个强大且易于使用的工具,使用户能够更高效地管理和分析数据库中的数据。
Qwen2-Audio是一个大规模音频语言模型,支持语音聊天和音频分析,能够处理各种音频信号输入并生成文本回应。
Continue是一个开源的VS Code扩展,它将ChatGPT的强大功能整合到VS Code中,支持自动补全、自然语言编辑和代码重构等功能,旨在提升开发者的编码效率和体验。
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
LLaVA是一个轻量级的多模态大模型推理框架,结合了视觉和语言理解能力,基于LLaMA架构和视觉Transformer,支持图像+文本的高效处理。它能够理解和分析图像内容,适用于视觉问答、图片理解、AI助理等多种任务。
基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。
Vocode是一个让用户能够轻松构建基于语音的LLM应用程序的工具。它支持实时流式对话,可以将应用程序部署到电话呼叫、Zoom会议等多种场景中。同时,它也适合构建个人助手或类似基于语音的棋类应用,具备模块化设计,便于扩展,且为开源项目,受益于社区的不断发展。
Xpeacho是一个基于AI的文本转语音(TTS)服务,能够即时将任何文本转换为100%自然的人声配音。它专为视频创作者设计,提供用户友好的界面,支持多种语言选项和语音效果。
Leelo是一款专为企业设计的AI驱动文本转语音工具,能够将文本转换为自然流畅的音频,帮助企业提升内容传播效果。
CloudSoul是一个基于AI的SaaS平台,允许用户通过自然语言对话输入,快速、轻松地部署云基础设施。无论用户的技术水平如何,只需简单的指令即可完成复杂的云配置,极大地简化了传统云服务的使用流程。