GAOKAO-bench 是一个评估框架,使用中国高考题目作为数据集,用于评估大语言模型的表现。该框架包含多种题型,旨在全面测试模型的语言理解能力和逻辑推理能力。
SuperGPQA是字节的豆包团队推出的评测项目,旨在为大语言模型(LLM)提供全面的研究生级学科评估框架。该项目覆盖285个研究生学科,通过创新的人机协作过滤机制确保题目高质量,并提供详细的模型性能对比,助力模型优化。