OpenAI兼容API

YALS开源项目 – 基于Deno的LLM文本生成API服务器

YALS开源项目 – 基于Deno的LLM文本生成API服务器

YALS是一个友好的OAI兼容API服务器，使用Deno、Hono和Zod构建，旨在通过llama.cpp后端促进LLM文本生成。它支持灵活的Jinja2模板引擎，与HuggingFace标准兼容，并基于Hono和异步TypeScript实现高效的并发推理。

Jinja2模板引擎LLM文本生成OpenAI兼容API并发推理

Astra Assistant API Service开源项目 – 兼容OpenAI的智能助手API

Astra Assistant API Service开源项目 – 兼容OpenAI的智能助手API

Astra Assistant API Service是一个与OpenAI beta Assistants API兼容的后端实现，支持持久线程、文件处理、助手功能、流式处理、检索功能和函数调用等。它使用AstraDB作为数据库和向量存储，提供了强大的数据处理和存储能力，适用于构建智能助手、对话系统、文件管理应用、数据检索功能以及集成流式数据处理等场景。

OpenAI兼容API对话系统数据检索功能文件管理应用

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK是一款全面支持ONNX和GGML模型的工具包，具备文本生成、图像生成、视觉-语言模型（VLM）、自动语音识别（ASR）和文本到语音（TTS）功能，提供OpenAI兼容的API服务器，支持JSON模式调用函数和流媒体，配备用户友好的Streamlit UI，方便开发者使用和集成。

GGML模型支持ONNX模型支持OpenAI兼容APIStreamlit UI

GPUStack开源项目 – 开源GPU集群管理器

GPUStack开源项目 – 开源GPU集群管理器

开源GPU集群管理器，用于运行大型语言模型(LLM)，支持多种硬件平台，提供轻量Python包和OpenAI兼容API，简化用户和API密钥管理，实时监控GPU性能和利用率

GPU性能监控OpenAI兼容API大型语言模型管理开源GPU集群管理器

MLX Omni Server开源项目 – 本地推理服务器，专为Apple Silicon优化

MLX Omni Server开源项目 – 本地推理服务器，专为Apple Silicon优化

一款基于苹果MLX框架的本地推理服务器，专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口，实现文本对话、语音转换、图像生成等AI能力。

Apple Silicon优化OpenAI兼容API本地推理服务器硬件加速

RouteLLM开源项目 – 高效的 LLM 路由器服务与评估框架

RouteLLM开源项目 – 高效的 LLM 路由器服务与评估框架

RouteLLM 是一个用于服务和评估 LLM 路由器的框架，旨在在不影响模型质量的情况下显著节省 LLM 的使用成本。它提供了一个 OpenAI 兼容的 API，能够根据请求自动路由到最佳模型，同时开箱即用的训练路由器功能使得成本降低高达 85%，且性能保持在 95% 的 GPT-4 水平。RouteLLM 还支持轻松扩展，以便添加新的路由器和基准，并通过单个命令比较所有路由器的性能。

LLM路由器服务OpenAI兼容API成本优化模型评估框架

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

OpenAI兼容的API，用于TensorRT LLM triton backend，提供了与langchain集成的功能，支持高效推理和灵活后端配置。

Langchain集成OpenAI兼容APITensorRT优化LLM自定义推理任务

EET开源项目 – 高效易用的Transformer推理解决方案

EET开源项目 – 高效易用的Transformer推理解决方案

EET是一个针对大型NLP模型的可扩展推理解决方案，旨在提供高性能的推理支持，特别是针对Transformer结构的大模型，同时支持长序列的场景，易于集成和使用。

NLP模型PyTorch插件Transformer推理高性能推理解决方案

LocalAI开源项目 – 本地兼容的开源AI解决方案

LocalAI开源项目 – 本地兼容的开源AI解决方案

自主管理、社区驱动的本地 OpenAI 兼容 API，能够在消费级硬件上运行 LLM，且无需 GPU。

开源API无需GPU的AI模型本地AI解决方案社区驱动的AI项目

Comfy-WaveSpeed开源项目 – 全能推理优化方案，快速灵活

Comfy-WaveSpeed开源项目 – 全能推理优化方案，快速灵活

为ComfyUI打造的全能推理优化方案，旨在实现通用、灵活且快速的推理加速。它支持多种推理场景，并且通过灵活的配置选项来满足不同用户的需求。该项目的设计目标是提升推理性能，并且能够轻松集成到现有的ComfyUI项目中。

ComfyUI推理优化性能提升推理加速灵活配置

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems-赋能变换器处理复杂串行任务

这项工作从表达能力的角度，为仅解码器的 Transformer 提供了 CoT 的强大功能的理论理解，旨在提高大型语言模型在算术和符号推理任务上的表现，特别是那些固有串行的计算问题。

低深度Transformer方法提高语言模型准确性的技术算术和符号推理赋能变换器处理串行任务

h2ogpt开源项目 – 开源大语言模型，致力于最优解。

h2ogpt开源项目 – 开源大语言模型，致力于最优解。

H2O.ai的开源大语言模型GPT项目，旨在创建世界上最好的开源GPT模型，提供强大的自然语言处理能力，支持多种任务，适用于大规模应用。

对话系统开源大语言模型情感分析文本生成

gen-ui-python开源项目 – 生成式用户界面构建工具

gen-ui-python开源项目 – 生成式用户界面构建工具

基于LangChain Python和Next.js构建的生成式UI web应用，提供构建生成式用户界面的模板，支持使用Shadcn构建UI组件，集成了OpenAI API和LangSmith SDK。

AI生成动态内容LangChain PythonNext.jsOpenAI API集成

co-mate开源项目 – 简化和优化LLM开发的项目

co-mate开源项目 – 简化和优化LLM开发的项目

一个用于端到端架构和大语言模型（LLM）的项目，旨在简化和优化开发过程。

LLM开发工具多语言支持架构分析工具自定义部署

Genoss GPT开源项目 – 一行代码替换私有模型

Genoss GPT开源项目 – 一行代码替换私有模型

在任意应用中用一行代码将商业版LLM(GPT 3.5/4)替换为私有模型(Falcon、GPT4ALL等)，旨在提供与OpenAI模型(如GPT 3.5/4)无缝对接的替代方案

一行代码替换私有模型商业LLM替换开发者集成隐私安全

Chainlit开源项目 – 快速构建聊天界面的Python框架

Chainlit开源项目 – 快速构建聊天界面的Python框架

一个Python应用开发框架，可以在几分钟内构建类似ChatGPT的用户界面，支持多种元素管理和云部署，适合快速开发和部署聊天机器人及互动应用。

LLM应用程序Python框架交互式数据可视化工具快速构建聊天界面

LLM-Engines开源项目 – 统一的大规模语言模型推理引擎

LLM-Engines开源项目 – 统一的大规模语言模型推理引擎

LLM-Engines是一个统一的大规模语言模型推理引擎，支持多种开源模型（如VLLM、SGLang、Together）和商业模型（如OpenAI、Mistral、Claude），通过不同引擎验证推理的准确性，旨在提供高效和灵活的语言处理解决方案。

LLM推理引擎多模型支持开源与商业模型集成语言处理解决方案

Kyanite开源项目 – 高效的神经网络推理库

Kyanite开源项目 – 高效的神经网络推理库

Kyanite是一个用Rust开发的神经网络推理库，支持CPU和Nvidia GPU，采用模块化设计，能够清晰地分割各个推理阶段，提供高效的内存管理和计算性能。

GPU加速ONNX模型支持Rust深度学习神经网络推理库

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3