rLLM开源项目 – 大语言模型强化学习开源框架
rLLM是Agentica项目团队开发的开源框架,旨在为大语言模型(LLM)提供完整的强化学习(RL)解决方案。
该项目通过开源训练脚本、模型参数、数据集和评估日志,实现了对DeepSeek R1和OpenAI O1/O3等先进模型的复现。
核心创新包括支持32K-64K长上下文训练、异步流水线优化技术(verl-pipe),以及发布DeepCoder-14B/1.5B等高性能代码生成模型和DeepScaleR数学推理模型。
项目由伯克利Sky Computing实验室和BAIR研究院支持,与Together AI合作开发。