模型压缩

NVIDIA TensorRT Model Optimizer – 深度学习模型优化库

NVIDIA TensorRT Model Optimizer – 深度学习模型优化库

TensorRT Model Optimizer 是一个集成了最先进模型优化技术的统一库，包括量化和稀疏化等技术。它通过压缩深度学习模型，为下游部署框架如 TensorRT-LLM 或 TensorRT 提供支持，以优化在 NVIDIA GPU 上的推理速度。

GPU加速推理模型压缩深度学习模型优化稀疏化优化

NeuralCompressor开源项目 – AI模型优化工具

NeuralCompressor开源项目 – AI模型优化工具

Intel研究院开源的AI模型优化工具，支持将千亿参数大模型压缩至1/20体积，在Intel第四代至强处理器上实现3.8倍推理加速，量化精度损失＜0.5%。该工具提供统一API，支持主流深度学习框架（如TensorFlow、PyTorch、ONNX Runtime和MXNet）上的模型压缩技术，包括量化、剪枝、蒸馏和神经架构搜索。

AI模型优化工具剪枝模型压缩神经架构搜索

量化基础知识课程官网 – 帮助开发者优化模型以适应硬件

本课程讲述量化基础知识，旨在帮助开发人员压缩模型以便在消费者硬件上运行。

Hugging Face TransformersPyTorch模型压缩消费者硬件

RLx2开源项目 – 一种强化学习专用的稀疏训练框架

RLx2开源项目 – 一种强化学习专用的稀疏训练框架

RLx2是清华大学团队提出的一种强化学习专用的稀疏训练框架，能够完全基于稀疏网络训练深度强化学习模型。

强化学习框架模型压缩深度学习稀疏训练

VPTQ开源项目 – 极低比特的向量后训练量化

VPTQ开源项目 – 极低比特的向量后训练量化

VPTQ是一种针对大型语言模型的极低比特向量后训练量化方法，旨在通过量化技术提高模型的计算效率和存储效率，同时保持模型性能。该项目适用于各种大型语言模型的优化，能够显著减少模型的内存占用和计算资源需求。

大型语言模型优化极低比特向量后训练量化模型压缩计算资源优化

知识蒸馏-将复杂模型的知识转移到小模型

通过蒸馏技术将复杂模型中的知识转移到更小的模型中，以便在资源受限的设备上有效运行AI模型。

模型压缩深度学习知识蒸馏资源受限设备

QLLM开源项目 – 通用的大语言模型量化工具箱

QLLM开源项目 – 通用的大语言模型量化工具箱

QLLM是一个通用的大语言模型量化工具箱，支持2-8位的LLM量化，用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口，适用于多种大语言模型，旨在帮助用户在不同精度下评估模型性能。

AWQGPTQLLM量化工具性能评估

benchmark4GPT开源项目 – 用于大语言模型的基准测试

benchmark4GPT开源项目 – 用于大语言模型的基准测试

一个包含多个样本的基准测试项目，用于大语言模型的测试和评估，旨在帮助研究者和开发者了解模型的性能表现。该项目提供多种语言的测试样本，支持自定义测试用例，易于与现有AI项目集成，方便进行系统性评估。

AI项目集成基准测试工具大语言模型评估自定义测试用例

OpenFactCheck开源项目 – 一个专为LLMs设计的开源事实核查工具

OpenFactCheck开源项目 – 一个专为LLMs设计的开源事实核查工具

OpenFactCheck是一个开源的事实核查演示，专为大型语言模型（LLMs）设计，旨在整合各种事实核查工具，提供全面的事实核查流程。该项目支持多种核查工具的整合，使得用户能够高效地进行事实核查，并且由于其开源特性，开发者可以根据需求进行扩展和定制。

LLMs支持开源事实核查工具教育工具自动化事实核查

ai-rd-tasks开源项目 – 评估大语言模型AI研发能力的任务集合

ai-rd-tasks开源项目 – 评估大语言模型AI研发能力的任务集合

一套评估大语言模型AI研发能力的任务集合，包含7个具有挑战性的任务，涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域，每个任务都有明确的评分标准和基准分数，用于测试AI代理与人类专家的能力对比

AI代理性能测试AI研发能力评估LLM训练优化Rust代码编程

llm-colosseum开源项目 – 评估 LLM 质量的新方法

llm-colosseum开源项目 – 评估 LLM 质量的新方法

llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法，通过模拟《Street Fighter 3》中的战斗表现作为基准，帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。

LLM质量评估决策能力测试实时游戏评估适应性分析

Inspect开源项目 – 大型语言模型评估框架

Inspect开源项目 – 大型语言模型评估框架

Inspect是一个用于评估大型语言模型性能的框架，提供多种评估指标与方法，支持不同类型的模型，易于与现有机器学习工作流集成，同时支持可视化和结果分析。

可视化结果分析大型语言模型评估框架机器学习工作流集成模型性能评估

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift开源项目 – 研究大型语言模型的性能漂移

LLMDrift是一个项目，旨在研究大型语言模型（如GPT-3.5和GPT-4）的性能漂移，特别关注其性能可能随时间下降的趋势及其影响。

LLM性能监测大型语言模型性能分析性能漂移研究模型重新训练工具

DeepCompressor开源项目 – 大型语言模型和扩散模型的压缩工具

DeepCompressor开源项目 – 大型语言模型和扩散模型的压缩工具

DeepCompressor是一个专为大型语言模型和扩散模型设计的模型压缩工具箱，支持多种数据类型的假量化，旨在提高模型的推理速度和效率。

大型语言模型扩散模型推理速度优化模型压缩工具

gpt-fast开源项目 – 高效的 PyTorch 解码实现

gpt-fast开源项目 – 高效的 PyTorch 解码实现

gpt-fast 是一种简约的、仅限 PyTorch 的解码实现，加载了最佳实践：int8/int4 量化、推测解码、张量并行性等，显著提高 LLM 操作系统的性能。

gpt-fastINT8量化PyTorch解码实现张量并行性

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3