2025年最强大的监督微调AI工具推荐

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

0

强化学习文本任务评估模型泛化能力监督微调

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

0

增强LLM长链思考能力的框架大型语言模型优化监督微调直接偏好优化

s1开源项目 – 低成本高效AI模型

s1是一个通过精心挑选的微调样本进行训练的AI模型，使用不到50美元的训练成本。训练过程中，选择了1000个问题，并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明，使用1K样本进行监督微调（SFT）在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后，使用预算强制策略来控制模型测试时的计算量，通过强制终止或延长模型的思考过程来优化生成结果。

0

Transformers库vLLM推理低成本AI模型监督微调

MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。

0

多模态模型开源项目数据集清洗监督微调

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

0

Deepseek R1GRPO算法从零构建推理模型开源项目

ScratchLLMStepByStep开源项目 – 从零开始编写大语言模型的教程

从零开始编写并训练大语言模型的教程，旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。

0

attention机制GPT模型transformer实现从零开始编写大语言模型

对齐手册开源项目 – 微调语言模型以符合人类和AI偏好

《对齐手册》主题是如何使用不同技术来微调语言模型，以使其更符合人类和AI的偏好。

0

人类和AI偏好奖励建模微调语言模型拒绝抽样