Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

EvalPlanner 是一个由Meta AI提出的研究项目,旨在通过将LLM-as-a-Judge的评估过程解耦为规划和推理阶段,结合迭代自训练和偏好优化技术,增强AI模型作为评估者的性能。该项目特别适用于复杂评估任务,并在多个基准测试中表现出色。
EvalPlanner的特点:
- 1. 分离规划和执行,以处理多样化的评估数据
- 2. 在RewardBench上超越基准模型,单次DPO迭代得分92.3,两次DPO迭代得分93.9
- 3. 在FollowBenchEval上泛化能力强,比Skywork-Critic-Llama-3.1–70B高出13%
- 4. 在RM-Bench和JudgeBench上表现出色,与Skywork-Critic-Llama-3.1–70B相当
- 5. 数据效率高,仅用5000个偏好对进行训练
- 6. 使用Llama-3.1–70B-Instruct或Llama-3.3–70B-Instruct作为初始模型
EvalPlanner的功能:
- 1. 使用WildChat和MATH数据集的合成数据进行训练
- 2. 评估响应时,首先从P中采样多个评估计划(z),然后为每个计划从E中采样执行(e),最终得出裁决(y)
- 3. 测试时,生成链式思维(CoT),形式为(z, e, y),结构包括计划、执行和裁决
- 4. 训练使用fairseq2,推理使用vLLM
- 5. 适用于一般指令跟随和数学推理任务,能处理多级约束,对内容和风格变化表现出鲁棒性
相关导航
暂无评论...