2025年最强大的多模态评估AI工具推荐

Humanity’s Last Exam (HLE)官网 – 评估AI极限的多模态基准测试

Humanity's Last Exam (HLE) 是一个多模态基准测试，旨在评估AI在人类知识前沿的极限表现。该项目包含2,700道高难度问题，涵盖数学、人文和自然科学等领域，由来自50个国家、500多个机构的近1,000名专家共同设计。这些问题经过多阶段审核，确保其精确、无歧义且难以通过互联网检索到答案。当前最先进的大型语言模型（LLMs）在该测试中的准确率低于10%，并表现出‘过度自信’现象。HLE为研究人员和开发者提供了一个严格的测试环境，帮助了解AI在复杂任务中的表现，并为政策制定提供参考。