大语言模型评估框架

GAOKAO-bench 是一个评估框架，使用中国高考题目作为数据集，用于评估大语言模型的表现。该框架包含多种题型，旨在全面测试模型的语言理解能力和逻辑推理能力。

SuperGPQA是字节的豆包团队推出的评测项目，旨在为大语言模型（LLM）提供全面的研究生级学科评估框架。该项目覆盖285个研究生学科，通过创新的人机协作过滤机制确保题目高质量，并提供详细的模型性能对比，助力模型优化。

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。