LoRA官网 – 低秩适应技术，优化大模型微调

Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术，主要用于处理大模型微调的问题，能够降低微调过程中的计算开销和内存需求。通过冻结预训练模型的权重并在每个 Transformer 块中注入可训练层，LoRA 实现了在减少训练参数数量的同时，保持微调质量与全模型微调相当，并显著提高微调速度。
LoRA的特点:
1. 冻结预训练模型的权重
2. 在每个 Transformer 块中注入可训练层
3. 减少训练参数的数量
4. 降低 GPU 的内存要求
5. 微调质量与全模型微调相当
6. 微调速度更快

LoRA的功能:
1. 用于大模型的微调
2. 适应下游任务
3. 优化计算资源和内存
4. 加速模型训练过程

相关导航

DoubleSparse开源项目 – 高效加速大语言模型推理

一种高效加速大语言模型推理的技术，通过减少内存访问，几乎不损失性能，让模型运行更快更省资源

Intel Extension for Transformers

Intel Extension for Transformers 是一个开源项目，旨在使客户端 CPU 上的大型语言模型（LLM）微调成为可能，特别是在没有 GPU 的情况下。它支持在 CPU 上进行 QLoRA 微调，适用于笔记本电脑环境，并通过优化的性能提升模型训练效率。该项目与 HuggingFace Transformers 兼容，支持 4 位推理，并利用 Intel 神经压缩器提供丰富的模型压缩技术，如量化、剪枝和蒸馏，显著提高了英特尔平台上的推理效率。此外，它还支持自动化的仅限权重的 INT4 量化流程，兼容多个流行的大语言模型，如 Llama2、Llama 和 GPT-NeoX。

CAME开源项目 – 信心引导的自适应内存优化

CAME（Confidence-guided Adaptive Memory Optimization）是一个旨在通过信心引导机制来优化模型内存使用的项目，提升大语言模型的性能。

EasyContext开源项目 – 优化内存以支持超长上下文

EasyContext 是一个用于内存优化和训练配方的项目，旨在将语言模型的上下文长度扩展到100万令牌，同时对硬件要求最小化。该项目提供了多种方法来提升模型性能，并兼容现有技术的实现，帮助开发者在资源有限的情况下有效地进行模型训练。

Stick-breaking Attention开源项目 – 提高GPU上变长序列的注意力计算性能

Stick-breaking Attention 是一种基于 Triton 的变长序列注意力机制实现，旨在通过优化计算方式提升在 GPU 上的性能，适合多种深度学习任务，易于与现有框架集成。

GPU Finder官网 – 帮助客户发现可用的GPU实例

GPU Finder是一个网站，帮助客户发现来自全球公共云提供商的可用GPU实例。它提供了不同云提供商提供的各种GPU、GPU服务器和GPU计算平台的信息。

Llama3.2-Vision-Finetune-Llama3.2开源项目 – Vision模型微调工具

这是一个开源实现，旨在为Meta的Llama3.2-Vision系列模型提供微调功能，支持高效训练，兼容Liger-Kernel，提升模型性能和训练效率。

Lorai官网 – 快速生成独特品牌设计资产

Lorai是一个平台，允许用户使用自己的品牌资产训练生成AI模型，以在几秒钟内创建独特内容。用户可以在浏览器中轻松训练低秩适应（LoRAs），无需计算资源，快速生成高质量设计元素。

PEFT开源项目 – 高效微调预训练模型的库

PEFT 是 HuggingFace 开源的一个高效微调库，旨在通过仅微调模型的一小部分参数（通常不到模型参数量的1%），实现与完全微调相似的性能，同时显著降低计算和存储开销。它支持多种微调策略，如适配器（Adapters）、低秩适应（LoRA）等，并且兼容多种预训练模型架构，如 BERT、GPT、T5 等。PEFT 还提供了模块化设计，易于集成到现有的 HuggingFace 模型和训练流程中。

UltraPixel官网 – 高效生成超高分辨率图像

UltraPixel 是一款革命性的图像生成模型，能够直接生成从 1K 到 6K 分辨率的高保真图像。它利用级联扩散模型，在单一模型内处理多种分辨率，同时保持计算效率。模型通过后期去噪阶段利用低分辨率图像的语义丰富表示，指导高分辨率图像的生成，显著降低复杂性。此外，它引入了隐式神经表示进行连续上采样，并采用适应不同分辨率的尺度感知归一化层。这些技术确保图像在低到高分辨率转换过程中保持高细节和真实感，训练效率高，仅需 100 万张高质量、多尺寸图像即可实现，实验显示其性能达到行业领先水平。

Alpaca-LoRA-RLHF-PyTorch开源项目 – 适用于消费硬件的Alpaca模型微调

这是一个完整的管道，用于在消费硬件上使用LoRA和RLHF微调Alpaca LLM。基于Alpaca架构实现人类反馈的强化学习（RLHF），基本上是ChatGPT的一个变体，但使用的是Alpaca。

VPTQ开源项目 – 极低比特的向量后训练量化

VPTQ是一种针对大型语言模型的极低比特向量后训练量化方法，旨在通过量化技术提高模型的计算效率和存储效率，同时保持模型性能。该项目适用于各种大型语言模型的优化，能够显著减少模型的内存占用和计算资源需求。

Vicuna-LoRA-RLHF-PyTorch开源项目 – 消费级硬件上的Vicuna微调工具

一个完整的管道，用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF（强化学习与人类反馈），基本上是ChatGPT的变种，但使用Vicuna。

Hands-On-LLM-Fine-Tuning官网 – 大型语言模型微调实践指南

这是一个针对大型语言模型（LLM）微调的综合性实践教程，旨在帮助用户快速掌握LLM微调技术。项目覆盖了从基础到进阶的多种微调方法，包括全参数微调和参数高效微调（如LoRA），并提供了丰富的实践案例，涵盖金融、推理等多个领域。教程设计注重初学者友好性，通过详细的步骤指导和实际案例演示，帮助用户快速上手并应用于实际场景。

DE-DETRs开源项目 – 数据高效的目标检测

DE-DETRs旨在实现数据高效的目标检测，采用Transformer架构，适用于需要减少数据使用的场景。

DualPipe开源项目 – 高效并行算法优化AI训练

DualPipe是一种创新的双向流水线并行算法，专为解决大规模AI模型训练中的效率问题而设计。它通过创新的调度策略，完全重叠前向和后向计算-通信阶段，同时减少流水线气泡，从而在相同设备配置下实现更高的训练吞吐量。该算法适用于跨多设备训练超大规模模型的场景，支持PyTorch 2.0及以上版本，无缝融入现代深度学习框架。

ChatGLM_multi_gpu_zero_Tuning开源项目 – 高效多卡微调大模型的工具

ChatGLM_multi_gpu_zero_Tuning是一个结合deepspeed和trainer的框架，旨在高效实现多卡微调大模型，目前支持LoRA、Ptuning-v2和Freeze三种微调方式，能够充分利用多卡资源，简化微调流程，适用于研究和开发.

OpenDelta开源项目 – 高效的参数调优框架

OpenDelta是一个开源框架，旨在实现高效的参数调优（Delta Tuning），支持多种机器学习模型和任务，具有易于集成和扩展的特点，能够优化计算资源的使用。

Platypus开源项目 – LLM改进方案，性能卓越

Platypus是一系列经过微调和合并的，在Open LLM排行榜上名列前茅的 LLM 改进方案。通过结合PEFT和LoRA等方法，通过高质量数据集实现强大的性能。

Llama3-Tutorial开源项目 – Llama 3 全链路教程

Llama 3 超级课堂是一个基于书生·浦语大模型工具链的教程项目，涵盖全链路微调、量化部署与评测，旨在帮助开发者快速掌握 Llama 3 的应用与优化。通过集成 XTuner、LMDeploy 和 OpenCompass 等工具，开发者可以深入学习大模型的使用与优化技巧。

AI Toolkit开源项目 – 简化Stable Diffusion任务的AI工具包

AI Toolkit是由Ostris开发的开源项目，专注于提供一系列用于Stable Diffusion相关任务的AI脚本。该工具包通过友好的Web界面简化了模型训练、任务监控等流程，极大地提升了AI开发和实验的效率。支持在本地、RunPod和Modal等多种环境下进行模型训练和部署，并提供LoRA、LoKr等多种训练方式。

llm-jax开源项目 – 高效训练SmolLM风格语言模型

用JAX/Flax训练的SmolLM风格语言模型，能在有限的计算资源下高效预训练，快速达到较高性能。该项目专注于利用现代深度学习框架JAX和Flax，提供灵活的训练选项，并优化资源使用，使其适合在计算资源受限的环境中进行实验和开发。

LLMTuner开源项目 – 大语言模型指令调优工具

LLMTuner 是一个专为大语言模型设计的指令调优工具，支持全量参数微调、LoRA 和 QLoRA，旨在提升模型的指令响应能力和优化微调过程。