tiny-grpo是一个强化学习项目,专注于GRPO(引导强化策略优化)算法的实现。它的设计目标是简单易用,适合那些希望快速开始强化学习项目的用户。项目提供了完整的训练脚本和依赖配置,支持单机多GPU训练,特别适合初学者和教育场景。