Agentic-Reward-Modeling 是一个奖励系统,通过结合奖励模型和来自不同方面的可验证正确性信号,提供可靠的奖励。该系统集成了事实性和指令遵循性信号,显著提升了奖励的可靠性,并在奖励模型基准测试中表现卓越。此外,它还提供了最佳N选一搜索功能,进一步优化了模型选择过程。