ERQA(Embodied Reasoning Question Answer)是由Google DeepMind开源的机器人领域多模态推理问答基准,包含400个真实场景问题,涵盖空间推理和世界知识。它通过文本和图像等多模态数据,以多选题形式评估机器人模型对复杂环境的理解能力,支持Gemini和OpenAI API的评估框架,数据以TFRecord格式存储,适用于学术研究和工业应用。
ACT-Bench 是一个开源的评估框架,专注于自动驾驶世界模型的行动可控性。它帮助研究人员量化模型在给定特定轨迹时生成驾驶场景的能力,例如如何根据预设路径生成逼真的驾驶视频。该框架包括一个基于 nuScenes 的大型数据集和一个名为 Terra 的基准模型,用于评估模型的行动保真度。ACT-Bench 通过生成视频并与地面真相比较来量化模型的行动可控性,支持研究人员测试其自己的世界模型,并与基准模型进行比较。