One API 是一个开源项目,旨在通过标准化的 OpenAI API 格式访问和管理多种大型语言模型(LLM),如 ChatGPT、Claude、PaLM 等。它简化了多模型集成的复杂性,支持负载均衡、令牌管理、渠道管理等功能,并提供详细的文档和教程。One API 采用 React 和 Node.js 构建,支持 Docker、Docker Compose 和手动部署,适用于开发聊天机器人、内容生成工具和数据分析平台等场景。
DeepSeek-V3 / R1 推理系统是一个通过大规模跨节点专家并行(Expert Parallelism, EP)实现更高吞吐量和更低延迟的推理系统。该系统采用多机多卡的专家并行策略,通过增加 batch size 提高 GPU 矩阵乘法效率,并通过分散专家计算降低延迟。此外,系统还采用了计算通信重叠优化、负载均衡优化、双 batch 重叠策略以及针对不同阶段的负载均衡器设计,以进一步提升系统性能。
Janus 是一个轻量级的 API 网关和管理平台,旨在提供高性能、可扩展的服务。它支持多种协议,并通过灵活的插件系统实现功能扩展,易于集成和配置,同时具备强大的安全性和认证机制,适用于各种场景。
GalLama是一个专注于本地agentic任务优化的LLM推理API服务后端,提供实验性特性和模型下载功能,能够支持多模型并发运行及负载均衡,旨在提升推理效率和灵活性。
go-micro-services是一个微服务框架,使用HTTP进行通信,利用Protobuf进行高效数据序列化,适合构建分布式系统,具备可扩展架构,易于与其他服务和API集成,遵循微服务最佳实践。
Kratos 是一个轻量级的 Go 微服务框架,提供丰富的微服务相关功能和工具,支持多种传输协议,内置服务发现、负载均衡及中间件扩展,适合构建高性能的分布式应用。
LLM Hosting Container 是一个用于部署和托管大型语言模型的解决方案,具备与AWS服务的无缝集成,提供易于使用的API接口,并支持自动扩展和负载均衡,优化性能以满足高并发需求。
Eureka是一个服务发现工具,主要用于在云环境中管理微服务架构,提供服务注册和发现的功能。它支持客户端和服务器端的健康检查,具备负载均衡和自我保护机制,能够与Spring Cloud无缝集成,适用于各种微服务场景。
Go Micro 是一个用于分布式系统开发的框架,支持微服务架构,提供内置的服务发现、负载均衡及跨语言的RPC调用,具备高可扩展性和灵活性,能够适应多种传输协议和编码格式。
GO Simple Tunnel是一个用Golang编写的简单隧道工具,支持多种网络协议和灵活的配置选项。
Meteron AI是一个强大且易于使用的工具集,旨在帮助您发展AI业务。它处理负载均衡、订单、存储和限制,让您可以专注于创建更好的模型和吸引更多流量。通过Meteron,您可以快速构建AI产品,管理请求队列,享受无限存储,并获得社区支持。
Litellm是一个Python SDK/Proxy Server,旨在简化与多种大语言模型API的交互,支持使用OpenAI格式调用100多个LLM API,提供统一的输入输出格式,易于集成和使用。
CodeTF是Salesforce出品的一站式代码类LLM工具库,提供了一套统一的接口用于Code LLM的训练、推导和微调,支持多种模型,易于扩展和集成。
magentic允许用户将大型语言模型(LLMs)集成到Python函数中,简化了LLM的调用与管理,提供易于使用的API,支持多种LLM模型,适合快速原型开发和测试。
将 Git 仓库中的选定文件整合到一个文件中,便于在大型语言模型(LLM)如 Claude 和 OpenAI 等中使用。该工具能够有效导出所需文件,支持多种语言模型,优化了文件处理的流程。
一个让不同大型语言模型(LLMs)高效沟通的跨平台协议,通过协商实现不同系统间的高效数据交换
一个用于评估奖励模型和LLM裁判的基准测试,帮助在大规模LLM训练和评估中复制人类偏好,包含真实的人类偏好数据和可验证的正确性偏好数据。
用 LangChain + FastApi 部署自动化LLM应用,以便将 LangChain 应用作为 API 提供服务
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型