NOLA项目旨在通过随机基的线性组合技术对LoRA模型进行压缩,从而提高模型的效率并减少其体积,非常适合在需要降低模型大小的场景中应用。
NyunZero是一个连接用户基础设施的工具,旨在快速适配和压缩视觉模型以及大语言模型(LLMs)。用户可以在几次点击中加速对象检测模型,或获得与硬件兼容的快速量化LLMs,适应用户的数据需求。
Unsloth 是一个用于训练和推理大型语言模型(LLM)的工具,特别适用于使用 DeepSeek 的 GRPO 算法进行训练。它显著减少了 VRAM 的使用,使得在有限资源下训练 LLM 更加高效。Unsloth 支持多种主流架构优化,如 Llama3、Qwen 等,在消费级显卡上实现 2-5 倍训练速度提升,显存占用降低 70%。此外,Unsloth 还支持本地 QLoRA 微调,适用于多种自然语言处理任务,并提供了适合初学者的 Colab 环境,方便用户快速上手。
gpt-fast 是一种简约的、仅限 PyTorch 的解码实现,加载了最佳实践:int8/int4 量化、推测解码、张量并行性等,显著提高 LLM 操作系统的性能。
一种高效加速大语言模型推理的技术,通过减少内存访问,几乎不损失性能,让模型运行更快更省资源