Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment论文 – 统一大模型对齐的数学框架
该项目提出了一种名为RPO(Reward-aware Preference Optimization)的数学框架,旨在统一和改进大语言模型(LLM)与人类偏好的对齐方法。该框架整合了多种流行的偏好优化技术,如DPO、IPO和SimPO,通过系统研究设计选择,提升模型对齐性能。项目提供了结构化方法来比较不同技术,提出了新的实验设置,并为设计有效的对齐策略提供了指导。