所有AI工具AI学习网站AI开发框架AI开源项目

simple-evals开源项目 – 轻量级语言模型评估库

OpenAI开源的轻量级语言模型评估库,主要用于透明化模型性能指标的发布。 强调零样本思维链评估方式,提供多个标准化测试基准,支持主流API接口。 包含MMLU、MATH等7个核心评估指...

标签:

AI交流(进群备注:simple-evals)

OpenAI开源的轻量级语言模型评估库,主要用于透明化模型性能指标的发布。
强调零样本思维链评估方式,提供多个标准化测试基准,支持主流API接口。
包含MMLU、MATH等7个核心评估指标,涵盖理解、数学、编程等多维度能力测试。
特别包含BrowseComp浏览器智能体专项测试集(1266个高难度问题)。

simple-evals的特点:

  • 1. 专注零样本思维链评估技术
  • 2. 集成7个权威测试基准
  • 3. 支持OpenAI/Claude等主流API
  • 4. 包含专业级BrowseComp浏览器测试集
  • 5. 透明化模型性能对比数据
  • 6. 轻量化设计,模块化依赖

simple-evals的功能:

  • 1. 对比不同语言模型的综合能力
  • 2. 验证模型在数学推理(MATH)等专项能力
  • 3. 测试浏览器智能体的网络信息处理能力(BrowseComp)
  • 4. 评估代码生成能力(HumanEval)
  • 5. 学术研究中的标准化模型测试
  • 6. 监控模型迭代版本的性能变化

相关导航

暂无评论

暂无评论...