ARC-AGI 是一个用于衡量人工智能系统和人类通用推理能力的基准数据集,包含800个任务,分为训练集和评估集。每个任务由输入-输出对组成,测试参与者需要根据提供的输入-输出对推断出测试输入的正确输出方格。该数据集旨在评估人工智能系统的类人推理能力,已被用于评估多种人工智能算法,包括神经网络和符号推理系统。项目包含数据集、评估任务和一个用于手动解决任务的浏览器界面。