阿里云 PAI Model Gallery 是一个为开发者提供便捷 AI 模型部署的平台,特别支持 DeepSeek-V3 和 DeepSeek-R1 系列模型。这些模型分别是拥有 6710 亿参数的专家混合大语言模型和高性能推理模型。该服务通过一键部署功能,结合 BladeLLM、SGLang 和 vLLM 等加速技术,帮助用户轻松集成先进 AI 能力,无需复杂基础设施配置。
gh200-llm是一个专为NVIDIA GH200芯片优化的大型语言模型训练与部署解决方案。它支持多种架构,包括H100和GH200,并集成了VLLM、XFormers和Flash Attention等先进技术,能够轻松部署和微调8B模型。此外,该解决方案还支持在单个GH200节点上以fp8模式全上下文长度部署70B或72B模型,为大规模语言模型的应用提供了高效、灵活的解决方案。
Dynasor 是一个基于 vLLM 的扩展,旨在通过动态执行和提前停止技术,显著加速大型语言模型(LLM)的推理过程,而无需进行额外的训练或微调。它提供了 CLI 界面和 OpenAI 兼容服务器,使用灵活,适用于多种推理场景。
高效LLM推理工具:在Slurm集群上使用vLLM进行高效大型语言模型(LLM)推理,简化了推理服务器的运行和管理,支持自定义配置以适应不同环境
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
LightLLM是一个基于Python的LLM(大型语言模型)推理和服务框架,以其轻量级设计、易于扩展和高速性能而闻名。它利用FasterTransformer、TGI、vLLM和FlashAttention等开源实现的优势,提供比Vllm更快的表现。
使用LLMPerf工具对LLM推理提供商进行基准测试,通过关键指标评估它们的性能、可靠性和效率,展示结果的透明度和可视化
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。