Residual Policy Gradient (RPG) 是一种用于强化学习和模仿学习的算法,扩展了 residual Q-learning 到 policy gradient 方法。它通过 KL 正则化在奖励层面平衡固有策略属性和任务特定需求,从而提升策略定制能力。RPG 特别适用于连续控制任务,如 MuJoCo 实验所示。