大语言模型强化学习框架

rLLM是Agentica项目团队开发的开源框架，旨在为大语言模型(LLM)提供完整的强化学习(RL)解决方案。该项目通过开源训练脚本、模型参数、数据集和评估日志，实现了对DeepSeek R1和OpenAI O1/O3等先进模型的复现。核心创新包括支持32K-64K长上下文训练、异步流水线优化技术(verl-pipe)，以及发布DeepCoder-14B/1.5B等高性能代码生成模型和DeepScaleR数学推理模型。项目由伯克利Sky Computing实验室和BAIR研究院支持，与Together AI合作开发。

代码生成模型训练分布式RL训练大语言模型强化学习框架开源AI训练方案

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

大语言模型强化学习框架

通过字节跳动免费使用满血可联网DeepSeek R1

现在注册，立即送145元代金券