一个用C++/CUDA实现的大型语言模型(LLM)推理工具,不依赖额外的库,除了用于输入输出。该工具旨在提供高效的推理能力,支持加载和保存冻结的LLM权重,适合各种应用场景。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
一个轻量级LLM应用开发框架,类似于Python requests库的简洁设计理念,提供了90%必需的LLM开发功能。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
LLM-Engines是一个统一的大规模语言模型推理引擎,支持多种开源模型(如VLLM、SGLang、Together)和商业模型(如OpenAI、Mistral、Claude),通过不同引擎验证推理的准确性,旨在提供高效和灵活的语言处理解决方案。
LiteChain是一个构建LLMs应用的轻量级替代LangChain的选择,专注于拥有小而简单的核心,易于学习、适应,文档完备,完全类型化和可组合,旨在帮助开发者快速实现复杂应用逻辑。
kotaemon 是一个基于RAG(Retrieval-Augmented Generation)的开源工具,专为与文档进行聊天而设计。它支持多用户登录、多模态文档查询和复杂推理,提供简洁的用户界面,支持多种LLM(包括OpenAI、Azure和本地模型),并允许用户通过图形界面调整检索和生成参数。开发者可以基于Gradio构建和定制自己的RAG管道,并扩展UI元素以增强功能。