SFT 记忆，RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

SFT 记忆，RL 泛化的特点:

1. 引入GeneralPoints，评估文本任务中的泛化能力
2. 使用V-IRL，测试视觉任务的泛化能力
3. 比较SFT和RL在泛化和记忆方面的表现
4. 发现RL在文本和视觉领域均优于SFT的泛化能力
5. RL显著提升了模型的视觉识别能力

SFT 记忆，RL 泛化的功能:

1. 安装环境：需H800服务器，Python 3.13.0，torch 2.5.1+cu124
2. 下载初始检查点和SFT数据：从Hugging Face下载
3. 运行SFT训练：使用Hugging Face数据集
4. 运行RL训练：使用Llama-3.2-Vision-Instruct模型，需8个80GB GPU
5. 模型评估：运行gp_evaluation、virl_evaluation和recog_evaluation脚本

相关导航

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

Reference implementation of a two-level RCN model开源项目 – 双层RCN模型的参考实现

这是一个双层递归卷积网络模型的参考实现，旨在提供灵活的应用支持和优化的性能。

OmniIsaacGymEnvs-DofbotReacher开源项目 – 仿真到现实的机器人控制环境

OmniIsaacGymEnvs-DofbotReacher是基于Omniverse Isaac Gym/Sim的强化学习环境，专为Dofbot机器人设计。它提供了一个从仿真到真实世界的桥梁，支持在仿真环境中开发和测试强化学习算法，并能够将这些算法无缝应用到真实世界的Dofbot机器人控制中。该项目适用于机器人控制、强化学习研究以及Sim2Real技术的研究，同时也支持多机器人协同控制和教育科研项目中的实验。

O1 Nano开源项目 – 简化版OpenAI O1模型，专注算术问题

一个开源项目，旨在实现 OpenAI O1 模型系列的简化版本，专注于通过链式思维和强化学习解决算术问题。该项目结合了最新的技术，使得用户能够更加高效地解决算术问题，并且通过强化学习不断提升模型的表现。

TRIL开源项目 – 模块化强化学习与模仿学习库

TRIL是一个模块化的强化学习（RL）和模仿学习（IL）算法开发库，基于Hugging Face开源的transformers、accelerate和peft等库，直接支持预训练语言模型并支持分布式计算。它提供了多种算法和任务支持，适用于广泛的机器学习应用场景。

JAX开源项目 – Google开发的数值计算库

JAX是由Google开发的开源数值计算库，专为研究者和开发者设计，结合了数值计算和机器学习。它支持自动微分与硬件加速，在Transformer模型训练中性能较PyTorch提升30%，广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图，支持并行计算和动态控制流，使代码既高效又灵活。

R1-V开源项目 – 低成本高效的视觉语言模型训练方法

R1-V是一个开源视觉语言模型（VLM）项目，旨在通过强化学习和可验证奖励（RLVR）在极低成本（不到3美元）和短时间内（30分钟）实现超强泛化能力。该项目通过高效的训练方法和开源资源，显著提升了模型的性能，特别是在超出分布（OOD）测试中，2B模型在100个训练步骤后超越了72B模型的表现。

Vision-R1开源项目 – 强化学习提升多模态推理

Vision-R1是首个探索如何有效利用强化学习（RL）提升多模态大语言模型（MLLM）推理能力的项目。通过冷启动初始化和RL训练，该项目显著提升了模型的推理能力，并仅用7B参数实现了与70B+参数模型相当的性能。此外，Vision-R1还提供了完整的推理流程和代码，助力研究者快速上手。

critic-rl开源项目 – 通过强化学习提升语言模型表现

critic-rl是一个通过强化学习教语言模型学会批判的项目，旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现，并具有模型无关性，适用于多种模型和任务。

SimPO开源项目 – 一种新的序列生成任务处理方法

SimPO 通过将强化学习转变为有监督的成对损失，提供了一种新的方法来处理序列生成任务。

LISA开源项目 – 学习可解释的技能抽象

LISA（Learning Interpretable Skill Abstractions）旨在通过强化学习任务来学习可解释的技能抽象，从而提高模型的可解释性。

iRe-VLA Framework论文 – 提升机器人控制任务的VLA模型

iRe-VLA Framework 是一个通过在线强化学习（RL）和监督学习（SL）迭代来提升视觉-语言-行动模型（VLA）在机器人控制任务中性能和泛化能力的框架。它兼顾了训练稳定性和计算效率，在多个模拟和真实世界基准测试中表现优异，如MetaWorld、FrankaKitchen和真实世界Panda操作任务。

s1开源项目 – 低成本高效AI模型

s1是一个通过精心挑选的微调样本进行训练的AI模型，使用不到50美元的训练成本。训练过程中，选择了1000个问题，并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明，使用1K样本进行监督微调（SFT）在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后，使用预算强制策略来控制模型测试时的计算量，通过强制终止或延长模型的思考过程来优化生成结果。

rs开源项目 – 基于JAX的随机搜索算法

rs是一个基于JAX的随机搜索实现，专为运动任务设计，能够高效地利用MuJoCo XLA (MJX)进行训练，支持多种运动环境，便于研究和实验。

Self-rewarding-reasoning-LLM开源项目 – 自我奖励推理的语言模型

该项目旨在训练一种能够自我奖励推理的大型语言模型，使模型在推理过程中能够自主评估输出的正确性，而无需依赖外部反馈。通过结合强化学习技术，模型能够显著提升推理能力和自我修正能力，最终准确率提升最高可达14.2%。