LiveBench 是一个为大型语言模型(LLM)设计的基准测试平台,专注于提供无污染的测试数据和客观评分。它涵盖数学、编码、推理、语言理解、指令遵循和数据分析等多个领域,问题设计具有挑战性,分数较为可靠,确保公平评估 AI 模型的表现。每月更新问题,确保测试数据未被模型训练所包含,并通过自动评分系统实现客观评分。