EvalPlanner 是一个由Meta AI提出的研究项目,旨在通过将LLM-as-a-Judge的评估过程解耦为规划和推理阶段,结合迭代自训练和偏好优化技术,增强AI模型作为评估者的性能。该项目特别适用于复杂评估任务,并在多个基准测试中表现出色。
TRACT是一种创新的两阶段微调方法,结合了链式思考(CoT)推理和回归感知微调(RAFT),旨在提升大型语言模型(LLM)在数值评分预测中的表现,特别是在‘LLM-as-a-Judge’场景下。通过第一阶段生成高质量的CoT数据,并在第二阶段利用这些数据进一步微调模型,TRACT显著提升了模型性能,超越了现有方法和基准模型。
CAPA 是一种新型的概率性语言模型相似性度量指标,旨在解决随着语言模型能力提升,评估和监督这些模型变得越来越困难的问题。CAPA 通过调整因模型准确率导致的偶然一致性,并结合输出概率,量化模型之间的功能相似性。它揭示了 LLM-as-a-Judge 场景中的亲和性偏见,并显示模型错误随能力提升而变得更加相似,强调了模型多样性在 AI 监管中的关键作用。
Selene API 提供前沿模型,用于评估生成式AI,帮助用户大规模发现并修复AI错误,通过使用LLM-as-a-Judge来测试和评估提示和模型版本,从而创建更可靠的生成式AI应用。