自动化蒸馏

LLM-Distillery开源项目 – 自动化的大语言模型蒸馏工具

大语言模型蒸馏的自动化管道，支持单教师和多教师模型的蒸馏，适用于指令和完成文本的蒸馏，支持离线蒸馏和跨平台操作，具备丰富的自定义选项

大语言模型蒸馏工具自动化蒸馏自定义选项跨平台操作

flash-attention开源项目 – 基于FlashAttention的高效Transformer实现

flash-attention是一个基于FlashAttention优化的Transformer实现，其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍，显著提升了训练效率，同时优化了内存使用，并支持多种硬件加速。

FlashAttentionHuggingFace集成深度学习训练速度优化

vLLM开源项目 – 高效的大模型推理框架

vLLM是一个开源的高效语言大模型服务系统，专注于提升推理速度和效率。它通过创新的内存管理和调度技术，优化了键值缓存（KV cache）的动态增缩和碎片化问题，显著提高了吞吐量并降低了延迟。vLLM支持多种语言模型，适用于高吞吐量的深度学习任务和大规模语言模型的部署。其设计简洁，开源社区支持强大，文档友好，特别适合需要高效推理能力的项目。