open-instruct开源项目 – 开源指令微调语言模型

open-instruct 是一个开源项目，专注于指令微调和后训练大型语言模型。它提供了最新的技术和指令数据集，支持直接偏好优化（DPO）和可验证奖励强化学习（RLVR），并在各种基准上评估模型性能。该项目为研究人员和开发者提供了一个平台，用于探索和改进指令微调技术。

open-instruct的特点:

1. 支持最新的指令微调技术
2. 提供直接偏好优化（DPO）和可验证奖励强化学习（RLVR）
3. 支持多种语言模型的微调和评估
4. 提供预训练模型的检查和评估工具
5. 支持LoRA和QLoRA微调
6. 提供多种指令数据集的集成

open-instruct的功能:

1. 使用公开数据集微调语言模型
2. 进行直接偏好优化（DPO）训练
3. 使用可验证奖励强化学习（RLVR）进行模型训练
4. 在多种基准上评估模型性能
5. 使用LoRA和QLoRA进行高效微调
6. 集成多种指令数据集进行训练

相关导航

FastVideo开源项目 – 加速视频扩散模型的轻量框架

FastVideo 是一个轻量级框架，专注于加速大型视频扩散模型。它通过一致性蒸馏技术显著提升推理速度，支持多种先进的视频扩散模型（如 Hunyuan 和 Mochi），并提供高效的训练和微调功能。FastVideo 还引入了滑动瓦片注意力（Sliding Tile Attention）技术，进一步优化了视频生成的速度和质量。该项目支持多 GPU 扩展训练，内存高效的微调方法（如 LoRA），并提供了丰富的预训练模型和数据集，方便用户快速上手。

RIP（Rejecting Instruction Preferences）论文 – 提升指令微调数据质量的新方法

RIP是一种新型数据筛选方法，通过分析拒绝回复的质量、长度以及奖励差异来筛选指令提示，从而提升指令微调数据的质量和模型性能。该方法基于直接偏好优化（DPO）中的偏好对，能够筛选掉低质量的指令提示，并可以扩展为Self-RIP，用于生成高质量的合成指令数据。研究显示，RIP在Llama 3.1-8B和Llama 3.3-70B模型上显著提升了性能。

lmms-finetune开源项目 – 多模态大模型微调工具

lmms-finetune 是一个多模态大模型微调工具，提供了一个统一的代码库，简化了微调流程，支持微调多种LLM。它支持完整模型微调和LoRA微调两种方式，并且具有良好的扩展性，能够满足不同场景下的需求。

对齐手册开源项目 – 微调语言模型以符合人类和AI偏好

《对齐手册》主题是如何使用不同技术来微调语言模型，以使其更符合人类和AI的偏好。

StarCoder 2开源项目 – 多语言代码生成模型

StarCoder 2是一系列先进的代码生成模型，支持超过600种编程语言以及自然语言文本，如维基百科、Arxiv和GitHub问题。这些模型采用了分组查询注意力机制，拥有16384 token的上下文窗口和4096 token的滑动窗口注意力。其中，3B和7B模型经过3万亿token的训练，15B模型则经过4万亿token的训练，使其在代码生成和处理方面表现出色。

Fine-tune Phi-2-对Phi开源项目 – 2模型进行微调的实例

Fine-tune Phi-2是一个用于对Phi-2模型进行微调的项目，包含使用QLoRA技术进行微调、创建合成对话数据集以及支持多个GPU并行训练的功能。该项目提供了详细的示例代码和文档，允许用户灵活配置训练参数，以便优化模型的表现。

mlx-lm开源 – Apple硅片高效运行大语言模型的Python工具包

mlx-lm是专为Apple硅片（如M1/M2/M3）优化的Python包，支持在macOS上高效运行和微调大语言模型。它深度集成Hugging Face Hub，提供模型量化、分布式推理、长文本处理等高级功能，特别针对Mac用户优化性能。项目支持Mistral/Llama等主流模型，提供文本生成、交互式聊天、模型转换等核心功能，并可通过LoRA微调适配专业场景。

FastVideo开源项目 – 加速视频扩散模型的轻量框架

DPO: Direct Preference Optimization官网 – 直接偏好优化语言模型

DPO（Direct Preference Optimization，直接偏好优化）是一种离线优化方法，直接利用偏好数据训练策略，无需显式奖励模型。该项目是基于论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的参考实现，支持因果 HuggingFace 模型和自定义数据集，提供了一种无需显式奖励模型的离线优化方法。特别适合语言模型对齐任务，研究表明其在控制生成情感、摘要质量和单轮对话响应上表现不亚于或优于现有方法。

finetuned-qlora-falcon7b-medical开源项目 – 心理健康领域的对话生成模型

该项目基于 QLoRA 技术对 Falcon-7B 大型语言模型进行微调，专注于心理健康领域的对话数据集，从而提升模型在特定领域的性能。该模型支持多种对话场景的处理，旨在为心理健康相关应用提供更优质的支持。

MLX-VLM开源项目 – Mac上的视觉语言模型工具

MLX-VLM 是一个专为在 Mac 上进行视觉语言模型（VLM）推理和微调而设计的 Python 包。它利用 MLX 框架，针对苹果芯片进行了优化，支持多种 VLM 模型，如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力，支持图像、视频和文本的组合输入，并提供了 LoRA 和 QLoRA 微调方法。

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

LLM-zero2hero开源项目 – 高度解耦的大语言模型微调项目

LLM-zero2hero是一个高度解耦的微调项目，旨在支持大语言模型的自定义训练、验证和推理过程。它提供了全量微调和LoRA微调的能力，使用户能够灵活地调整模型以满足特定需求。

Bunny开源项目 – 轻量级多模态通用框架

Bunny是一个轻量级但功能强大的多模态通用框架，兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练，支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码器（Vision Encoder）、跨模态投影器（Cross Modality Projector）和大语言模型（Large Language Model）。通过特殊的token `` 来定位图像嵌入的位置，并将图像和文本模态的嵌入维度对齐，从而实现多模态融合。Bunny还提供了多种预训练模型和训练教程，支持高分辨率图像处理，并在多个基准测试中表现出色。

x-flux开源项目 – 高效的Flux模型训练脚本

Black Forest Labs的Flux模型训练脚本集，支持LoRA和ControlNet模型的微调，使用DeepSpeed进行高效训练，适用于512x512及1024x1024图片尺寸，提供下载链接和训练配置文件

暂无评论

暂无评论...