verl 是火山引擎开源的大型语言模型(LLMs)强化学习(RL)训练库,基于 HybridFlow 论文设计,旨在简化和加速 LLM 的强化学习过程。verl 提供了灵活的 RL 算法扩展、无缝集成现有 LLM 基础设施、灵活的设备映射、与 Hugging Face 模型的轻松集成,并通过 3D-HybridEngine 实现高效的 Actor 模型重分片,显著减少训练和生成阶段的通信开销。