LLM Compressor开源项目 – 高效压缩大型语言模型
LLM Compressor 是一个专注于大型语言模型压缩的工具库,支持训练中和训练后的压缩技术。它与 PyTorch 和 HuggingFace Transformers 兼容,设计灵活易用,便于快速实验。此外,它还专门为 vLLM 提供量化优化功能,支持将 Hugging Face 格式的模型转换为 safetensors 格式,特别适用于量化 Hugging Face 上新发布的小模型。通过集成多种压缩算法(如 GPTQ、SparseGPT 和 SmoothQuant),LLM Compressor 在保持模型精度的同时,显著提升推理效率和资源利用率。