DeepSeek-R1 是一种采用自我进化方法进行训练的 LLM,与传统的强化学习人类反馈 (RLHF) 不同,它使用 Group Relative Policy Optimization 进行强化学习,奖励来自基于规则的硬编码函数,训练源自自我进化。