YALS是一个友好的OAI兼容API服务器,使用Deno、Hono和Zod构建,旨在通过llama.cpp后端促进LLM文本生成。它支持灵活的Jinja2模板引擎,与HuggingFace标准兼容,并基于Hono和异步TypeScript实现高效的并发推理。
Astra Assistant API Service是一个与OpenAI beta Assistants API兼容的后端实现,支持持久线程、文件处理、助手功能、流式处理、检索功能和函数调用等。它使用AstraDB作为数据库和向量存储,提供了强大的数据处理和存储能力,适用于构建智能助手、对话系统、文件管理应用、数据检索功能以及集成流式数据处理等场景。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
开源GPU集群管理器,用于运行大型语言模型(LLM),支持多种硬件平台,提供轻量Python包和OpenAI兼容API,简化用户和API密钥管理,实时监控GPU性能和利用率
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
RouteLLM 是一个用于服务和评估 LLM 路由器的框架,旨在在不影响模型质量的情况下显著节省 LLM 的使用成本。它提供了一个 OpenAI 兼容的 API,能够根据请求自动路由到最佳模型,同时开箱即用的训练路由器功能使得成本降低高达 85%,且性能保持在 95% 的 GPT-4 水平。RouteLLM 还支持轻松扩展,以便添加新的路由器和基准,并通过单个命令比较所有路由器的性能。
OpenAI兼容的API,用于TensorRT LLM triton backend,提供了与langchain集成的功能,支持高效推理和灵活后端配置。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
自主管理、社区驱动的本地 OpenAI 兼容 API,能够在消费级硬件上运行 LLM,且无需 GPU。
为ComfyUI打造的全能推理优化方案,旨在实现通用、灵活且快速的推理加速。它支持多种推理场景,并且通过灵活的配置选项来满足不同用户的需求。该项目的设计目标是提升推理性能,并且能够轻松集成到现有的ComfyUI项目中。
这项工作从表达能力的角度,为仅解码器的 Transformer 提供了 CoT 的强大功能的理论理解,旨在提高大型语言模型在算术和符号推理任务上的表现,特别是那些固有串行的计算问题。
H2O.ai的开源大语言模型GPT项目,旨在创建世界上最好的开源GPT模型,提供强大的自然语言处理能力,支持多种任务,适用于大规模应用。
基于LangChain Python和Next.js构建的生成式UI web应用,提供构建生成式用户界面的模板,支持使用Shadcn构建UI组件,集成了OpenAI API和LangSmith SDK。
一个用于端到端架构和大语言模型(LLM)的项目,旨在简化和优化开发过程。
在任意应用中用一行代码将商业版LLM(GPT 3.5/4)替换为私有模型(Falcon、GPT4ALL等),旨在提供与OpenAI模型(如GPT 3.5/4)无缝对接的替代方案
一个Python应用开发框架,可以在几分钟内构建类似ChatGPT的用户界面,支持多种元素管理和云部署,适合快速开发和部署聊天机器人及互动应用。
LLM-Engines是一个统一的大规模语言模型推理引擎,支持多种开源模型(如VLLM、SGLang、Together)和商业模型(如OpenAI、Mistral、Claude),通过不同引擎验证推理的准确性,旨在提供高效和灵活的语言处理解决方案。
Kyanite是一个用Rust开发的神经网络推理库,支持CPU和Nvidia GPU,采用模块化设计,能够清晰地分割各个推理阶段,提供高效的内存管理和计算性能。