所有AI工具AI开发框架AI开源项目AI编程工具

RAGEN开源 – 首个开源DeepSeek-R1强化学习框架

RAGEN 是 DeepSeek-R1 强化学习训练框架的首个开源复制品,专注于训练大型语言模型(LLM)推理代理。它支持多轮统一处理,避免批量大小不稳定,提供世界建模能力,并帮助智能体进...

标签:

Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26

AI交流(进群备注:)

RAGEN 是 DeepSeek-R1 强化学习训练框架的首个开源复制品,专注于训练大型语言模型(LLM)推理代理。它支持多轮统一处理,避免批量大小不稳定,提供世界建模能力,并帮助智能体进行规划。特别适用于交互式和随机环境中的多步任务训练,如 Sokoban 谜题和 FrozenLake 环境。

RAGEN的特点:

  • 1. 支持多种强化学习算法:PPO、GRPO、BRPO
  • 2. 支持代理模型的多轮在线 RL 训练
  • 3. 易于扩展到其他 Gym 环境
  • 4. 使用马尔可夫决策过程(MDP)公式化代理任务
  • 5. 采用 RICO 算法优化整个轨迹分布
  • 6. 提供渐进式奖励归一化策略:ARPO、BRPO、GRPO

RAGEN的功能:

  • 1. 使用提供的脚本设置环境
  • 2. 创建训练数据
  • 3. 使用指定的 RL 算法训练模型
  • 4. 可视化训练过程

相关导航

暂无评论

暂无评论...