一种高效加速大语言模型推理的技术,通过减少内存访问,几乎不损失性能,让模型运行更快更省资源
Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术,主要用于处理大模型微调的问题,能够降低微调过程中的计算开销和内存需求。通过冻结预训练模型的权重并在每个 Transformer 块中注入可训练层,LoRA 实现了在减少训练参数数量的同时,保持微调质量与全模型微调相当,并显著提高微调速度。
8个关于在多GPU上训练大型语言模型(或任意神经网络)的挑战性难题,旨在让读者亲身体验关键基本原理,并理解内存效率和计算流水线的目标。
MInference是一种高效的长上下文大型语言模型(LLM)推理加速工具,采用动态稀疏注意力机制和稀疏计算方法,显著加速长序列处理的预填充过程。它能够在保持高准确性的同时,将LLM处理百万上下文的时间提速10倍,适用于A100等硬件平台。MInference可直接应用于现有的LLM,无需预训练或额外微调,已在多个基准模型上验证其性能。
AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU 卡上运行推理,或者让 405B Llama3.1 在 8G 的 GPU 卡上运行。
Inferflow是一个高效且高度可配置的大型语言模型(LLM)推理引擎,支持多种Transformer模型,用户无需编写源代码,只需通过简单修改配置文件即可进行服务,旨在提供高效的推理性能,适应不同需求。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
AG2(前身为AutoGen)是一个为智能体AI设计的编程框架,帮助多个智能体协作以解决问题。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
NOLA项目旨在通过随机基的线性组合技术对LoRA模型进行压缩,从而提高模型的效率并减少其体积,非常适合在需要降低模型大小的场景中应用。