RIP是一种新型数据筛选方法,通过分析拒绝回复的质量、长度以及奖励差异来筛选指令提示,从而提升指令微调数据的质量和模型性能。该方法基于直接偏好优化(DPO)中的偏好对,能够筛选掉低质量的指令提示,并可以扩展为Self-RIP,用于生成高质量的合成指令数据。研究显示,RIP在Llama 3.1-8B和Llama 3.3-70B模型上显著提升了性能。