LLM-as-a-Judge

EvalPlanner 是一个由Meta AI提出的研究项目，旨在通过将LLM-as-a-Judge的评估过程解耦为规划和推理阶段，结合迭代自训练和偏好优化技术，增强AI模型作为评估者的性能。该项目特别适用于复杂评估任务，并在多个基准测试中表现出色。

AI模型评估LLM-as-a-JudgeMeta AI研究项目偏好优化

TRACT开源 – 提升LLM评分预测性能的微调方法

TRACT是一种创新的两阶段微调方法，结合了链式思考（CoT）推理和回归感知微调（RAFT），旨在提升大型语言模型（LLM）在数值评分预测中的表现，特别是在‘LLM-as-a-Judge’场景下。通过第一阶段生成高质量的CoT数据，并在第二阶段利用这些数据进一步微调模型，TRACT显著提升了模型性能，超越了现有方法和基准模型。

LLM-as-a-JudgeLLM微调方法回归感知微调评分预测提升

CAPA: 基于概率调整的语言模型相似性协议官网 – 量化语言模型相似性的创新指标

CAPA 是一种新型的概率性语言模型相似性度量指标，旨在解决随着语言模型能力提升，评估和监督这些模型变得越来越困难的问题。CAPA 通过调整因模型准确率导致的偶然一致性，并结合输出概率，量化模型之间的功能相似性。它揭示了 LLM-as-a-Judge 场景中的亲和性偏见，并显示模型错误随能力提升而变得更加相似，强调了模型多样性在 AI 监管中的关键作用。