合成指令数据生成

RIP（Rejecting Instruction Preferences）论文 – 提升指令微调数据质量的新方法

RIP是一种新型数据筛选方法，通过分析拒绝回复的质量、长度以及奖励差异来筛选指令提示，从而提升指令微调数据的质量和模型性能。该方法基于直接偏好优化（DPO）中的偏好对，能够筛选掉低质量的指令提示，并可以扩展为Self-RIP，用于生成高质量的合成指令数据。研究显示，RIP在Llama 3.1-8B和Llama 3.3-70B模型上显著提升了性能。

合成指令数据生成指令微调数据筛选模型性能提升直接偏好优化

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。