CAME(Confidence-guided Adaptive Memory Optimization)是一个旨在通过信心引导机制来优化模型内存使用的项目,提升大语言模型的性能。
Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术,主要用于处理大模型微调的问题,能够降低微调过程中的计算开销和内存需求。通过冻结预训练模型的权重并在每个 Transformer 块中注入可训练层,LoRA 实现了在减少训练参数数量的同时,保持微调质量与全模型微调相当,并显著提高微调速度。
Medusa使用多个解码头部,使大型语言模型的生成速度提升2倍。与传统的小模型生成选项加大模型验证的方式相比,Medusa无需额外的模型,可以与大模型同时训练和使用,特别适合分布式部署场景。
8个关于在多GPU上训练大型语言模型(或任意神经网络)的挑战性难题,旨在让读者亲身体验关键基本原理,并理解内存效率和计算流水线的目标。
专为大型语言模型(LLM)训练优化的类,集成了多种高效训练技术,旨在提升训练效率和内存使用效率。
ULLME是一个统一的框架,旨在通过生成增强学习优化大型语言模型的嵌入,支持双向注意力机制以及多种微调策略,帮助提升模型的性能和效果。
Unsloth 是一个用于训练和推理大型语言模型(LLM)的工具,特别适用于使用 DeepSeek 的 GRPO 算法进行训练。它显著减少了 VRAM 的使用,使得在有限资源下训练 LLM 更加高效。Unsloth 支持多种主流架构优化,如 Llama3、Qwen 等,在消费级显卡上实现 2-5 倍训练速度提升,显存占用降低 70%。此外,Unsloth 还支持本地 QLoRA 微调,适用于多种自然语言处理任务,并提供了适合初学者的 Colab 环境,方便用户快速上手。
Lightning + Colossal-AI 是一个结合了Colossal AI和Lightning AI强大功能的大规模分布式模型训练框架,旨在简化模型训练和部署过程,同时优化内存使用和计算效率,具有强大的可扩展性,适用于多种硬件配置。
建立在HuggingFace模型和PyTorch Fully Sharded Data Parallelism基础上的训练套件,旨在优化吞吐量,简化在资源受限环境中训练中型模型的分布式方案设置工作流程,尤其适用于学术集群。
该项目探讨了在不同位精度下的语言模型(LLM)性能比较,尤其是4位和8位精度模型的精度表现。
Tied-LoRA是一种简单的范式,它利用和来增加LoRA方法的参数效率。该方法在多个任务中表现出相当的性能,并且仅使用标准LoRA方法的13%的参数,有助于减少模型的复杂性和提升训练效率。
BiPE (Bilevel Positional Encoding) 旨在通过双层位置编码技术,提高模型在处理不同输入长度时的预测能力,尤其适用于序列建模任务。该项目通过增强位置编码的表达力,从而改善模型在长文本和变长输入上的性能。