simple-evals开源项目 – 轻量级语言模型评估库

所有AI工具AI学习网站 AI开发框架 AI开源项目

simple-evals开源项目 – 轻量级语言模型评估库

OpenAI开源的轻量级语言模型评估库，主要用于透明化模型性能指标的发布。强调零样本思维链评估方式，提供多个标准化测试基准，支持主流API接口。包含MMLU、MATH等7个核心评估指...

标签：AI学习网站 AI开发框架 AI开源项目AI性能测试库 OpenAI开源项目语言模型评估工具零样本思维链评估

官网入口手机查看

AI交流（进群备注：simple-evals）

OpenAI开源的轻量级语言模型评估库，主要用于透明化模型性能指标的发布。
强调零样本思维链评估方式，提供多个标准化测试基准，支持主流API接口。
包含MMLU、MATH等7个核心评估指标，涵盖理解、数学、编程等多维度能力测试。
特别包含BrowseComp浏览器智能体专项测试集（1266个高难度问题）。

simple-evals的特点:

1. 专注零样本思维链评估技术
2. 集成7个权威测试基准
3. 支持OpenAI/Claude等主流API
4. 包含专业级BrowseComp浏览器测试集
5. 透明化模型性能对比数据
6. 轻量化设计，模块化依赖

simple-evals的功能:

1. 对比不同语言模型的综合能力
2. 验证模型在数学推理(MATH)等专项能力
3. 测试浏览器智能体的网络信息处理能力(BrowseComp)
4. 评估代码生成能力(HumanEval)
5. 学术研究中的标准化模型测试
6. 监控模型迭代版本的性能变化

相关导航

Bench开源项目 – 评估语言模型的工具

Bench开源项目 – 评估语言模型的工具

Bench开源项目 – 评估语言模型的工具

Bench是一个用于评估语言模型(LLM)在生产用例中的工具，支持多种语言模型的评估，并提供详细的评估报告和指标，易于集成到现有的生产环境中，且支持自定义评估用例。

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval 是一个评估套件，旨在为语言模型在自然语言处理任务上运行评估管道，提供多种评估指标和详细报告，支持扩展和自定义评估。

Haven开源项目 – LLM微调与评估工具

Haven开源项目 – LLM微调与评估工具

Haven开源项目 – LLM微调与评估工具

Haven是一个用于大型语言模型微调和评估的工具，拥有简单的用户界面，可以方便地进行模型微调并基于多种标准进行评估。

ragas开源项目 – 评估RAG性能的框架

ragas开源项目 – 评估RAG性能的框架

ragas开源项目 – 评估RAG性能的框架

ragas是一个专门用于评估检索增强生成(Retrieval Augmented Generation，RAG)性能的框架。它基于最新的研究提供工具，帮助用户评估语言模型生成的文本，并提供有关RAG管道性能的深入洞见。

Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具，具备图同构的比较方法，旨在帮助研究人员分析和提升模型的性能。

FLASK开源项目 – 基于对齐技能集的细粒度语言模型评估

FLASK开源项目 – 基于对齐技能集的细粒度语言模型评估

FLASK开源项目 – 基于对齐技能集的细粒度语言模型评估

FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具，旨在提供更准确的评估结果，揭示模型的强项和弱点，并指导语言模型的进一步发展。

Flux AI官网 – 释放创造力的AI模型集合

Flux AI官网 – 释放创造力的AI模型集合

FLUX.1 AI是来自Black Forest Labs的一系列出色的Flux AI模型，包括FLUX.1 Pro、FLUX.1 Dev和FLUX.1 Schnell，致力于帮助用户在不同领域中实现创新和创作。

LearnHouse官网 – 创建世界级在线教育平台

LearnHouse官网 – 创建世界级在线教育平台

LearnHouse 使您能够启动世界级的在线大学、培训、训练营和各种格式的课程。借助 LearnHouse AI，学生可以针对课程提出具体问题，并根据实际课程内容获得回复。

StockInsights AI官网 – 革命性的股票研究平台

StockInsights AI官网 – 革命性的股票研究平台

StockInsights AI是一个基于人工智能的平台，旨在简化股票研究，提供深入洞察、实时警报和可定制的投资工具，帮助用户做出更智能的投资决策。

Altern官网 – AI爱好者的社区中心

Altern官网 – AI爱好者的社区中心

Altern不仅是一个目录，更是一个围绕不断发展的人工智能世界的社区。无论您是资深的AI研究员、初学的程序员，还是对技术未来充满好奇的人，Altern都能为您提供丰富的资源和交流平台。

LLM-Self-Correction-Papers开源项目 – 大语言模型自我纠错论文精选

LLM-Self-Correction-Papers开源项目 – 大语言模型自我纠错论文精选

LLM-Self-Correction-Papers开源项目 – 大语言模型自我纠错论文精选

大语言模型自我纠错相关论文的精选集合，涵盖内在自我纠错、外部工具辅助纠错、信息检索辅助纠错等多个研究方向，包含详细的论文分类和引用信息，是研究LLM自我纠错能力的重要参考资源

MOTIV8官网 – 帮助个人提升生活满意度的应用

MOTIV8官网 – 帮助个人提升生活满意度的应用

MOTIV8是一款革命性的应用，旨在帮助个人改善个人福祉、提升生产力和整体生活满意度。它提供了一个全面的平台，用于管理任务、设定目标和保持组织性，同时还提供指导和建议，帮助用户发现新的体验和个人成长机会。

Mindset AI – Beyond Talk Therapy-利用心理学改善人际关系

Mindset AI – Beyond Talk Therapy-利用心理学改善人际关系

Mindset AI是全球首个利用第三代心理学和神经科学改善人际关系的人工智能应用。用户可以下载应用程序，聆听AI伴侣提供的实用建议和指导，这些建议基于第三代心理学和神经科学原理。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3