LLM推理工具集

Awesome LLM Inference开源项目 – 强大的LLM推理工具集

Awesome LLM Inference开源项目 – 强大的LLM推理工具集

这是一个关于出色LLM推理的小集合，包含文献、博客和文档以及代码，支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。

FlashAttentionLLM推理工具集PagedAttentionSmoothQuant

QMoE开源项目 – 高效压缩万亿参数模型的解决方案

QMoE开源项目 – 高效压缩万亿参数模型的解决方案

QMoE是一种用于压缩类似于SwitchTransformer的万亿参数模型的实用解决方案，大大降低了内存需求。它以最小的准确性损失实现了20倍的压缩率，并且可以在经济实惠的硬件上高效运行。

万亿参数模型压缩低成本硬件运行模型推理加速深度学习内存优化

datatrove开源项目 – 平台无关的数据处理开源工具

datatrove开源项目 – 平台无关的数据处理开源工具

datatrove是一个平台无关的数据处理开源工具，旨在解放数据处理中的脚本疯狂，提供一套可定制的管道处理块，支持高效的数据处理，适用于不同规模的数据。

开源数据处理工具数据处理管道数据预处理

h2ogpt开源项目 – 开源大语言模型，致力于最优解。

h2ogpt开源项目 – 开源大语言模型，致力于最优解。

H2O.ai的开源大语言模型GPT项目，旨在创建世界上最好的开源GPT模型，提供强大的自然语言处理能力，支持多种任务，适用于大规模应用。

对话系统开源大语言模型情感分析文本生成

CachedEmbedding开源项目 – 动态管理嵌入表内存

CachedEmbedding开源项目 – 动态管理嵌入表内存

基于ColossalAI的软件缓存方法来动态管理CPU和GPU内存空间中的极大嵌入表，能够在单个GPU上高效训练包括91.10 GB嵌入表的DLRM模型，仅需分配3.75 GB的CUDA内存，适用于大规模数据集。

ColossalAIPyTorch动态管理嵌入表内存大规模数据集

Segment Anything for Microscopy开源项目 – 基于SAM的显微镜分割和跟踪工具

Segment Anything for Microscopy开源项目 – 基于SAM的显微镜分割和跟踪工具

该项目是一个基于SAM的显微镜分割和跟踪工具，旨在通过自动化技术提高显微镜图像分析的效率。它集成了先进的深度学习模型，能够支持显微镜图像的自动分割和细胞在时间序列中的变化跟踪，适合处理大规模数据集，并提供用户友好的界面。

显微镜图像分割工具深度学习模型生物信息学集成细胞跟踪

MarbleFlows官网

使用AI生成的表单，以转化更多潜在客户。

AI办公工具工具站

MisguidedAttention开源项目 – 挑战大型语言模型的推理能力

MisguidedAttention开源项目 – 挑战大型语言模型的推理能力

MisguidedAttention是一个集合，旨在利用误导信息挑战大型语言模型的推理能力，主要通过修改经典思维实验和谜题来检验模型的鲁棒性。

挑战大型语言模型的推理能力经典思维实验分析误导信息测试工具

Perceiver IO开源项目 – 通用多模态处理模型

Perceiver IO开源项目 – 通用多模态处理模型

Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现，支持分布式训练，具有通用输入处理能力，适用于图像、文本和音频等多种任务，设计高效，能够处理大规模数据。

PyTorch实现分布式训练图像处理多模态处理

EMMA开源项目 – 增强型多模态推理基准测试

EMMA开源项目 – 增强型多模态推理基准测试

EMMA是一个增强型多模态推理基准测试，用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力，帮助研究者发现模型在复杂多模态任务中的局限性。

增强型多模态推理基准测试多模态语言模型评估数学物理化学编程推理模型局限性分析

Llog官网 – 协作分析与洞察工具

Llog是一个为大型语言模型(LLM)设计的协作分析与洞察工具，能够通过简单的请求记录最终用户的交互，并便于所有商业利益相关者从这些日志中提取、分享和推导洞察。

LLM交互监控Llog协作分析工具实时洞察分享

PRM800K开源项目 – 提升大型语言模型推理能力的数据集

PRM800K开源项目 – 提升大型语言模型推理能力的数据集

PRM800K是一个用于训练过程监督奖励模型（PRM）的数据集，旨在提高大型语言模型在复杂推理任务中的准确性，尤其是在数学问题上。该数据集包含800K个步进级标签，覆盖12K个问题的75K个解决方案，使用主动学习技术选择最具信息量的数据样本进行人工注释，从而提供细粒度反馈，通过评估中间推理步骤来改进结果，最终提高解决率，从42.5%提升到78%在MATH数据集子集上。

PRM800K数据集RLHF技术主动学习大型语言模型推理

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

LLM性能比较多轮对话能力评估语言模型评估工具

reasoning-teacher开源项目 – 利用大模型蒸馏构建小模型

reasoning-teacher开源项目 – 利用大模型蒸馏构建小模型

该项目演示了如何利用大模型进行蒸馏来构建小模型，从而在某些领域实现比大型模型更强的推理效果。

大模型蒸馏小模型构建成本降低推理能力提升

NanoFlow开源项目 – 高性能服务框架，提升推理效率

NanoFlow开源项目 – 高性能服务框架，提升推理效率

NanoFlow是一个面向大型语言模型(Large Language Models, LLMs)的高吞吐量高性能服务框架，采用设备内并行性、异步CPU调度和SSD卸载等关键技术，显著提升资源利用率和推理吞吐量。

大型语言模型推理服务异步处理资源利用率优化高性能服务框架

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3