peft_pretraining开源项目 – 参数高效的语言模型预训练

是参数高效的语言模型微调中最受欢迎的方法之一。该项目探讨了以参数高效的方式进行语言模型的预训练，并引入了一种名为ReLoRA的方法，利用低秩更新来训练高秩网络。
peft_pretraining的特点:
1. 利用低秩更新进行高秩网络的训练
2. 适用于预训练的Transformer语言模型
3. 在模型规模增加时效率提高
4. 与常规神经网络训练相媲美的性能
5. 高效训练数十亿参数网络的潜力

peft_pretraining的功能:
1. 使用ReLoRA进行语言模型的预训练
2. 在大规模Transformer模型中应用低秩更新
3. 进行参数高效的语言模型微调

相关导航

Efficient LLM inference solution on Intel GPU-基于Intel GPU的高效LLM推理

提出一种高效的基于Intel GPU的LLM推理解决方案。通过简化LLM解码器层的结构，融合数据移动和逐元素操作，降低内存访问频率和系统延迟。同时，提出一种段KV缓存策略，将请求和响应token的键/值存储在不同的物理内存中，以有效管理设备内存，提高运行批处理大小和系统吞吐量。在Intel GPU上实现了该解决方案，并与标准的HuggingFace实现进行了比较，对于一些流行的LLM模型，在Intel GPU上实现的解决方案的令牌延迟降低了7倍，吞吐量提高了27倍。

Fine-Tuner AI官网 – 提升NLP模型性能的强大工具

Fine-Tuner AI是一款强大的工具，利用尖端的微调技术提升您的自然语言处理(NLP)模型性能。它可以在更少的数据下以极短的时间内实现更好的结果。用户只需将NLP模型和数据上传到平台，Fine-Tuner将应用其先进的微调算法，优化模型以提高性能。优化后的模型可以轻松集成回现有工作流程中。

Anyscale | Scalable Compute for AI and Python官网 – 统一计算平台，简化AI与Python应用开发

Anyscale是一个统一的计算平台，旨在利用Ray简化可扩展AI和Python应用的开发、部署和管理。用户可以轻松地开始使用Anyscale端点进行服务和微调开源大型语言模型（LLMs）。

源2.0开源项目 – 新一代基础语言大模型

源2.0是浪潮信息发布的新一代基础语言大模型，开源了102B、51B和2B三个模型版本。该模型在源1.0的基础上，利用更多样的高质量预训练数据和指令微调数据集，增强了在语义、数学、推理、代码、知识等方面的理解能力。提供了预训练、微调、推理服务的相关脚本，支持多种部署方式，包括Hugging Face、TensorRT-LLM、FastChat等框架。

Megatron-LLM开源项目 – 支持大规模分布式语言模型预训练和微调的库

Megatron-LLM是一个专为大规模分布式训练设计的库，旨在高效支持语言模型的预训练和微调。它提供灵活的模型架构配置，并支持多种优化算法，使得用户可以根据需求进行优化和扩展，同时易于与其他深度学习框架集成。

MosaicML官网 – 专注于模型训练与微调的公司

MosaicML是一家专注于模型训练和微调的公司，发布了一系列新的大型语言模型(LLM)，其中包括专为故事创作设计的模型，旨在支持文学创作和儿童教育。

Dolomite Engine开源项目 – 超优化的大型语言模型训练库

Dolomite Engine是一款用于预训练和微调大型语言模型的超优化库，集成了多项关键创新，包括模型架构、微调方法和系统优化。它旨在提高大型语言模型的训练效率和效果，支持多种模型架构，优化微调过程，并提供系统性能的显著提升。

Terracotta官网 – 快速直观的LLM实验平台

Terracotta是一个平台，使用户能够快速直观地实验大型语言模型（LLMs），支持模型管理、微调和评估。用户可以安全存储数据，针对分类和文本生成微调模型，并进行定性与定量比较。

IPEX-LLM开源项目 – 加速本地大语言模型推理和微调

IPEX-LLM 是一个专为在 Intel Xeon 和 Arc GPU 系统上运行大型语言模型（如 DeepSeek-R1-671B-Q4_K_M）而设计的项目。它支持多种模型格式和量化技术，提供便携式部署方案，并优化性能以充分利用硬件资源。此外，IPEX-LLM 还支持多语言文档，包括中文，帮助用户快速上手和解决问题。

mini_qwen开源项目 – 1B参数中英文大语言模型

mini_qwen是一个从头开始训练的1B参数的大型语言模型(LLM)项目，包括预训练(PT)、微调(SFT)和直接偏好优化(DPO)3个部分。该项目基于Qwen2.5-0.5B-Instruct模型，通过扩充模型隐藏状态层数、隐藏状态维度和注意力头数，增加参数量到1B，并进行参数随机初始化。支持中英文，预训练和微调仅需要12G显存，直接偏好优化仅需要14G显存。使用flash_attention_2进行加速，使用deepspeed在6张H800上进行训练，探究了尺度定律(scaling law)、复读机现象与微调阶段的知识注入。

Byzer-LLM开源项目 – 全生命周期的 LLM 解决方案

基于 Ray 的 LLM 全生命周期解决方案，包括预训练、微调、部署和服务，支持 Python/SQL API，基于 Ray，易于扩展

OpenVLA-开源视觉-语言开源项目 – 动作模型

OpenVLA是一个开源的视觉-语言-动作模型，旨在通过高效微调的方式支持多机器人控制，结合了先进的语言和视觉编码技术，能够在多种任务中表现出色，适用于广泛的机器人应用场景。

ChatLM-mini-Chinese开源项目 – 中文对话的小型生成模型

ChatLM-mini-Chinese是一个中文对话0.2B小模型，旨在整理生成式语言模型的训练流程，包括数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等。

PengChengStarling开源项目 – 多语言语音识别解决方案

PengChengStarling是基于icefall项目的多语言语音识别（ASR）模型，旨在一站式解决多语言语音识别难题。该项目支持多种语言，提供从数据处理到模型部署的完整流程，模型体积小且推理速度快，适用于多种应用场景。

Lit-GPT开源项目 – 可定制的开源大型语言模型实现

Lit-GPT是一个基于nanoGPT的开源大型语言模型的可定制实现，支持多种先进技术，如Flash Attention 2、4-bit和8-bit量化、LoRA和LLaMA-Adapter微调以及预训练。该项目采用Apache 2.0许可证，支持Llama2、Mistral和Mixtral等模型，旨在提供灵活且高效的模型定制和优化方案。

CodeTF开源项目 – 一站式代码类LLM工具库

CodeTF是Salesforce出品的一站式代码类LLM工具库，提供了一套统一的接口用于Code LLM的训练、推导和微调，支持多种模型，易于扩展和集成。