LarPO论文 – 基于IR的LLM对齐优化方法
LarPO(LLM Align as Retriever Preference Optimization)是一种基于信息检索(IR)原则的大型语言模型(LLM)对齐优化方法。它将LLM的生成过程类比为IR中的检索器,将奖励模型类比为重排序器,利用对比学习、LambdaRank和ListMLE等技术提升对齐质量。LarPO在AlpacaEval2和MixEval-Hard数据集上分别实现了38.9%和13.7%的性能提升,特别适用于确保LLM输出的正确性、可信度和伦理性。