零样本思维链评估

OpenAI开源的轻量级语言模型评估库，主要用于透明化模型性能指标的发布。强调零样本思维链评估方式，提供多个标准化测试基准，支持主流API接口。包含MMLU、MATH等7个核心评估指标，涵盖理解、数学、编程等多维度能力测试。特别包含BrowseComp浏览器智能体专项测试集（1266个高难度问题）。

AI性能测试库OpenAI开源项目语言模型评估工具零样本思维链评估

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。