OpenAI开源的轻量级语言模型评估库,主要用于透明化模型性能指标的发布。 强调零样本思维链评估方式,提供多个标准化测试基准,支持主流API接口。 包含MMLU、MATH等7个核心评估指标,涵盖理解、数学、编程等多维度能力测试。 特别包含BrowseComp浏览器智能体专项测试集(1266个高难度问题)。