LoRA开源项目 – 大语言模型微调技术
LoRA(Low-Rank Adaptation of Large Language Models)是一种用于大语言模型微调的技术。它通过冻结预训练模型的权重参数,并在每个Transformer块中注入可训练的层来减少训练计算量。LoRA使用两个线性层(A和B)来模拟权重矩阵的变化,训练时只更新A和B参数,推理时将A、B参数与预训练参数相加,几乎不会带来效果损失。该技术显著减少了存储需求,并支持高效的任务切换,同时不引入推理延迟。LoRA在多个基准测试中表现优于其他微调方法,如适配器、前缀调优和全量微调。