Group Relative Policy Optimization (GRPO)开源 – 高效强化学习策略优化算法
GRPO是一种深度强化学习策略优化算法,通过分组采样和奖励归一化提升策略学习的稳定性和效率。
它采用截断概率比防止策略更新过于激进,保护已学习的良好行为。该算法在经典强化学习任务(如CartPole)
和大型语言模型(LLMs)的推理能力提升中表现优异。GRPO最初由DeepSeek团队提出,特别适用于数学推理任务,
在MATH基准测试中达到60%的准确率。其设计兼顾了训练效率和资源利用率,尤其适合大规模模型训练。