RAGEN 是 DeepSeek-R1 强化学习训练框架的首个开源复制品,专注于训练大型语言模型(LLM)推理代理。它支持多轮统一处理,避免批量大小不稳定,提供世界建模能力,并帮助智能体进行规划。特别适用于交互式和随机环境中的多步任务训练,如 Sokoban 谜题和 FrozenLake 环境。