OpenAI推出的偏好微调技术,采用直接偏好优化(DPO)方法,通过成对样本比较学习使大型语言模型与用户偏好对齐。开发者需准备包含优选和非优选输出的JSONL格式数据集,训练模型区分响应质量并适应特定场景需求,适用于对回答格式、语气或抽象特质(如友好度、创造力)有高要求的应用场景。