EvalPlanner论文 – 提升AI模型评估性能的研究项目

EvalPlanner 是一个由Meta AI提出的研究项目，旨在通过将LLM-as-a-Judge的评估过程解耦为规划和推理阶段，结合迭代自训练和偏好优化技术，增强AI模型作为评估者的性能。该项目特别适用于复杂评估任务，并在多个基准测试中表现出色。

EvalPlanner的特点:

1. 分离规划和执行，以处理多样化的评估数据
2. 在RewardBench上超越基准模型，单次DPO迭代得分92.3，两次DPO迭代得分93.9
3. 在FollowBenchEval上泛化能力强，比Skywork-Critic-Llama-3.1–70B高出13%
4. 在RM-Bench和JudgeBench上表现出色，与Skywork-Critic-Llama-3.1–70B相当
5. 数据效率高，仅用5000个偏好对进行训练
6. 使用Llama-3.1–70B-Instruct或Llama-3.3–70B-Instruct作为初始模型

EvalPlanner的功能:

1. 使用WildChat和MATH数据集的合成数据进行训练
2. 评估响应时，首先从P中采样多个评估计划（z），然后为每个计划从E中采样执行（e），最终得出裁决（y）
3. 测试时，生成链式思维（CoT），形式为（z, e, y），结构包括计划、执行和裁决
4. 训练使用fairseq2，推理使用vLLM
5. 适用于一般指令跟随和数学推理任务，能处理多级约束，对内容和风格变化表现出鲁棒性

相关导航

Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment论文 – 统一大模型对齐的数学框架

该项目提出了一种名为RPO（Reward-aware Preference Optimization）的数学框架，旨在统一和改进大语言模型（LLM）与人类偏好的对齐方法。该框架整合了多种流行的偏好优化技术，如DPO、IPO和SimPO，通过系统研究设计选择，提升模型对齐性能。项目提供了结构化方法来比较不同技术，提出了新的实验设置，并为设计有效的对齐策略提供了指导。

ArtificialAnalysis官网 – AI模型评估与分析

ArtificialAnalysis提供AI模型和API托管服务的客观基准和分析，帮助用户比较在项目中使用的最佳选项。我们整合了不同的质量基准、定价信息以及我们自己的技术基准数据。

Verdict开源项目 – 提升AI评估可靠性与效率

Verdict旨在通过扩展推理时计算，解决传统大型语言模型（LLM）评估中的不稳定性和可靠性问题。其核心价值在于提供更高效、更可靠的评估方法，帮助研究人员和开发者更好地理解和优化AI模型的性能。

火山方舟大模型体验中心官网 – AI模型体验与服务平台

火山方舟大模型体验中心是字节跳动旗下火山引擎推出的AI模型服务平台，提供多种大型AI模型的体验、推理、微调和评估功能。平台支持个人和企业用户，具备丰富的GPU资源和高吞吐量处理能力，同时提供端到端加密和数据保密性，确保使用安全。平台还推出了邀请返利活动，鼓励用户邀请好友加入，降低使用门槛。

LiveBench AI官网 – 难以作弊的基准测试工具

LiveBench AI是一个由Abacus AI和杨立昆及其团队合作创建的基准测试工具，通过发布新问题和基于最新数据集设置评测，确保基准测试的无污染性。它包含18个任务，分为6个类别，初始发布960个问题，任务全面多样化。

TRACT开源 – 提升LLM评分预测性能的微调方法

TRACT是一种创新的两阶段微调方法，结合了链式思考（CoT）推理和回归感知微调（RAFT），旨在提升大型语言模型（LLM）在数值评分预测中的表现，特别是在‘LLM-as-a-Judge’场景下。通过第一阶段生成高质量的CoT数据，并在第二阶段利用这些数据进一步微调模型，TRACT显著提升了模型性能，超越了现有方法和基准模型。

GamingAgent开源项目 – 经典游戏AI测试与优化

GamingAgent 是一个专注于开发和测试AI Agent的项目，特别适用于经典游戏如超级玛丽和俄罗斯方块。它支持多种AI模型的接入和测试，能够评估和比较不同模型在游戏中的表现，并提供详细的测试基准和结果分析。此外，GamingAgent 还支持多种经典游戏，具备智能决策能力，能够根据不同模型的特点进行优化，适用于研究、开发、教育和演示等多种场景。

CAPA: 基于概率调整的语言模型相似性协议官网 – 量化语言模型相似性的创新指标

CAPA 是一种新型的概率性语言模型相似性度量指标，旨在解决随着语言模型能力提升，评估和监督这些模型变得越来越困难的问题。CAPA 通过调整因模型准确率导致的偶然一致性，并结合输出概率，量化模型之间的功能相似性。它揭示了 LLM-as-a-Judge 场景中的亲和性偏见，并显示模型错误随能力提升而变得更加相似，强调了模型多样性在 AI 监管中的关键作用。

Selene API官网 – 评估生成式AI的前沿模型

Selene API 提供前沿模型，用于评估生成式AI，帮助用户大规模发现并修复AI错误，通过使用LLM-as-a-Judge来测试和评估提示和模型版本，从而创建更可靠的生成式AI应用。

Benchy开源项目 – AI性能对比工具

Benchy是一个让AI性能对比变得直观的工具，支持实时对比不同AI模型的性能、价格和速度。它提供多种微应用，以满足不同场景的测试需求，帮助用户快速评估和选择最适合的AI模型。

MightyGPT官网 – 强大的聊天机器人

MightyGPT是一个利用GPT-3和chatGPT技术的强大聊天机器人，用户可以通过WhatsApp等消息应用与其直接对话。它提供广泛的对话能力，能够协助用户完成各种任务和查询。使用MightyGPT非常简单，只需将其添加为联系人并开始对话即可。

AIShader开源项目

AIShader是一个开源项目，它是由ChatGPT驱动的着色器，可用于Unity。该项目允许用户用AI技术来创建更具吸引力的图形效果。使用AIShader，用户可以更容易地实现光线追踪、阴影、反射、抗锯齿等高级功能。此外，AIShader还支持多个平台，包括Windows、Linux和MacOS。