Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法

TOPR 是一种新型强化学习算法，专为微调大型语言模型（LLM）设计，特别针对 off-policy 环境中的 REINFORCE 不稳定性问题。它通过不对称锥形重要性采样稳定学习，无需依赖 KL 正则化，支持完全离线应用，统一处理正负示例，并受益于 Monte Carlo 方法的简单性。实证研究表明，在推理任务的 off-policy 微调中，TOPR 表现优于朴素 REINFORCE、PPO 和 DPO，特别是在 GSM8K 和 MATH 基准测试中表现出色。

Tapered Off-Policy REINFORCE (TOPR)的特点:

1. 使用不对称锥形重要性采样稳定 off-policy 学习
2. 支持完全离线应用，最大化数据利用效率
3. 统一框架处理正负示例，增强学习能力
4. 受益于 Monte Carlo 方法的简单性和高效性

Tapered Off-Policy REINFORCE (TOPR)的功能:

1. off-policy 数据环境中的 LLM 微调
2. 推理任务优化，如 GSM8K 和 MATH 基准测试
3. 资源受限场景下的高效模型微调

相关导航

O1-CODER开源项目 – 专注编程任务的模型复现项目

一个专注于编程任务的O1模型复现项目，结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力，包含测试用例生成器(TCG)和自弈强化学习两大核心组件，旨在生成更高效和逻辑性强的代码

LeRobot开源项目 – 简化机器人技术的训练与应用

LeRobot 是一个端到端的训练框架，专注于真实世界的机器人技术，通过 PyTorch 提供模型、数据集和工具，旨在降低机器人技术的准入门槛，使研究者和开发者能够更轻松地开发和测试机器人应用。

DeepMind Lab2D开源项目 – 专为强化学习设计的2D虚拟环境平台

DeepMind Lab2D是由DeepMind开发的2D虚拟环境平台，专为强化学习（RL）和智能体训练设计。它提供了一个高度可定制且高效的训练环境，支持研究人员在各种AI任务中进行实验和优化。

Adaptive官网 – 提升企业AI能力的先进工具

Adaptive是一个先进的AI工具，旨在改变企业利用大型语言模型（LLMs）的方式。它提供了一整套工具，通过强化学习技术对开放模型进行微调和部署，增强其性能，确保满足特定的业务需求，同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。

JAX开源项目 – Google开发的数值计算库

JAX是由Google开发的开源数值计算库，专为研究者和开发者设计，结合了数值计算和机器学习。它支持自动微分与硬件加速，在Transformer模型训练中性能较PyTorch提升30%，广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图，支持并行计算和动态控制流，使代码既高效又灵活。

SFT 记忆，RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

Efficient World Models with Context-Aware Tokenization开源项目 – 高效世界模型与上下文感知分词

该项目专注于利用上下文感知分词来构建高效的世界模型，旨在提升智能体的学习与表现。

hl-gauss-pytorch开源项目 – 基于PyTorch的高斯直方图损失函数

hl-gauss-pytorch是一个基于PyTorch实现的高斯直方图损失函数（HL-Gauss），为回归任务提供了全新的视角，能够有效提升模型的性能。

Awesome-LLM-Robotics开源项目 – 聚焦于LLM与机器人技术的研究

这是一个综合性列表，涵盖使用大型语言/多模态模型在机器人和强化学习领域的论文，包含论文、代码及相关网站。

DeepMind 机器人-通过深度学习模拟人类步态的机器人

这台通过DeepMind深度强化学习训练的机器人只有20个驱动关节。而人类步行需要对大约360个关节600块肌肉进行实时控制。

Reference implementation of a two-level RCN model开源项目 – 双层RCN模型的参考实现

这是一个双层递归卷积网络模型的参考实现，旨在提供灵活的应用支持和优化的性能。

Self-rewarding-reasoning-LLM开源项目 – 自我奖励推理的语言模型

该项目旨在训练一种能够自我奖励推理的大型语言模型，使模型在推理过程中能够自主评估输出的正确性，而无需依赖外部反馈。通过结合强化学习技术，模型能够显著提升推理能力和自我修正能力，最终准确率提升最高可达14.2%。

TinyZero开源项目 – 重现大型语言模型自我进化

TinyZero是一个以不到30美元的成本，利用veRL强化学习训练框架，在qwen2.5模型基础上进行训练的项目，能够复现DeepSeek R1论文中的'Aha moment'，并提供完整实验日志和开源代码，方便复现和学习。

OmniIsaacGymEnvs-DofbotReacher开源项目 – 仿真到现实的机器人控制环境

OmniIsaacGymEnvs-DofbotReacher是基于Omniverse Isaac Gym/Sim的强化学习环境，专为Dofbot机器人设计。它提供了一个从仿真到真实世界的桥梁，支持在仿真环境中开发和测试强化学习算法，并能够将这些算法无缝应用到真实世界的Dofbot机器人控制中。该项目适用于机器人控制、强化学习研究以及Sim2Real技术的研究，同时也支持多机器人协同控制和教育科研项目中的实验。

LlamaGym开源项目 – 知识增强规划系统

知识增强规划系统，旨在为基于LLM的智能Agent提供支持，通过创建广泛的行动知识库，将特定任务相关的行动规划知识整合起来，并将这些知识转化为文本，使模型能够深入理解和利用这些知识来生成行动轨迹。

暂无评论

暂无评论...