对齐手册开源项目 – 微调语言模型以符合人类和AI偏好

《对齐手册》主题是如何使用不同技术来微调语言模型，以使其更符合人类和AI的偏好。
对齐手册的特点:
1. 提供强大的训练方法
2. 覆盖整个微调语言模型的过程
3. 包括监督微调、奖励建模、拒绝抽样和直接偏好优化(DPO)

对齐手册的功能:
1. 使用监督微调来提高模型性能
2. 应用奖励建模进行更合理的决策
3. 通过拒绝抽样优化生成结果
4. 实施直接偏好优化(DPO)以增强用户体验

相关导航

TrucefulQA-提升LLM在数据集上的正确率

哈佛大学出品的新论文，旨在提升LLM在TrucefulQA数据集上的正确率。该项目通过改进模型的输出和修正机制，使得大型语言模型在处理特定数据集时表现更佳。

NewHope-面向编程的llama-2开源项目 – 13b微调语言模型

NewHope是一个专注于编程的语言模型，基于llama-2-13b进行微调，结合了GPT-4的编程能力，旨在高效处理各种编程任务，支持多种编程语言，提升开发者的工作效率。

DPO: Direct Preference Optimization官网 – 直接偏好优化语言模型

DPO（Direct Preference Optimization，直接偏好优化）是一种离线优化方法，直接利用偏好数据训练策略，无需显式奖励模型。该项目是基于论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的参考实现，支持因果 HuggingFace 模型和自定义数据集，提供了一种无需显式奖励模型的离线优化方法。特别适合语言模型对齐任务，研究表明其在控制生成情感、摘要质量和单轮对话响应上表现不亚于或优于现有方法。

ScratchLLMStepByStep开源项目 – 从零开始编写大语言模型的教程

从零开始编写并训练大语言模型的教程，旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。

BafCloud官网 – 简化AI开发的全能云平台

BafCloud是一个集成的云平台，简化了AI开发的过程，提供单一API访问数千个AI模型和智能体，帮助用户无缝管理、微调和部署大型语言模型，快速构建定制的AI代理，确保AI项目的集成与协作。

SFT 记忆，RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。

LaMini-LM开源项目 – 提升迷你大语言模型性能的项目

LaMini-LM是一个对多个迷你大语言模型进行微调的项目，旨在提升模型的性能，其中包括经过微调的GPT-2，其性能可与LLaMa的Alpaca-7B相媲美。

RIP（Rejecting Instruction Preferences）论文 – 提升指令微调数据质量的新方法

RIP是一种新型数据筛选方法，通过分析拒绝回复的质量、长度以及奖励差异来筛选指令提示，从而提升指令微调数据的质量和模型性能。该方法基于直接偏好优化（DPO）中的偏好对，能够筛选掉低质量的指令提示，并可以扩展为Self-RIP，用于生成高质量的合成指令数据。研究显示，RIP在Llama 3.1-8B和Llama 3.3-70B模型上显著提升了性能。

s1开源项目 – 低成本高效AI模型

s1是一个通过精心挑选的微调样本进行训练的AI模型，使用不到50美元的训练成本。训练过程中，选择了1000个问题，并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明，使用1K样本进行监督微调（SFT）在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后，使用预算强制策略来控制模型测试时的计算量，通过强制终止或延长模型的思考过程来优化生成结果。

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。