所有AI工具AI开发框架AI开源项目AI编程工具

rLLM开源项目 – 大语言模型强化学习开源框架

rLLM是Agentica项目团队开发的开源框架,旨在为大语言模型(LLM)提供完整的强化学习(RL)解决方案。 该项目通过开源训练脚本、模型参数、数据集和评估日志,实现了对DeepSeek R1和Op...

标签:

AI交流(进群备注:rLLM)

rLLM是Agentica项目团队开发的开源框架,旨在为大语言模型(LLM)提供完整的强化学习(RL)解决方案。
该项目通过开源训练脚本、模型参数、数据集和评估日志,实现了对DeepSeek R1和OpenAI O1/O3等先进模型的复现。
核心创新包括支持32K-64K长上下文训练、异步流水线优化技术(verl-pipe),以及发布DeepCoder-14B/1.5B等高性能代码生成模型和DeepScaleR数学推理模型。
项目由伯克利Sky Computing实验室和BAIR研究院支持,与Together AI合作开发。

rLLM的特点:

  • 1. 开源完整的RL训练方案(脚本/参数/数据集/日志)
  • 2. 支持32K→64K长上下文扩展训练
  • 3. verl-pipe异步流水线技术(训练加速2倍)
  • 4. DeepCoder-14B代码模型(LCB 60.6%媲美O3-mini)
  • 5. DeepScaleR-1.5B数学模型(超越7B基线)
  • 6. 多节点分布式训练支持
  • 7. 完整的评估体系(LCB/Codeforces/AIME等)

rLLM的功能:

  • 1. 代码生成任务训练(使用DeepCoder脚本)
  • 2. 数学推理模型开发(基于DeepScaleR方案)
  • 3. 长上下文RL实验(支持32K→64K扩展)
  • 4. 分布式RL训练(多节点Ray集群)
  • 5. 训练流程优化(verl-pipe流水线加速)
  • 6. 模型性能评估(集成LCB/Codeforces等基准)

相关导航

暂无评论

暂无评论...