Reward Feature Models (RFM)论文 – 个性化偏好建模方法
Reward Feature Models (RFM) 是一种在强化学习从人类反馈 (RLHF) 中捕捉个体偏好的方法,特别适用于大型语言模型 (LLMs) 的训练。它通过学习跨用户共享的通用奖励特征和用户特定的权重来实现个性化。训练过程分为两个阶段:训练阶段学习共享特征和初始用户权重,适应阶段使用有限反馈快速调整新用户权重。研究表明,RFM 在用户内泛化性能上与 Variational Preference Learning (VPL) 相当,同时在用户间泛化能力上表现更优。