开源评估框架

ERQA（Embodied Reasoning Question Answer）是由Google DeepMind开源的机器人领域多模态推理问答基准，包含400个真实场景问题，涵盖空间推理和世界知识。它通过文本和图像等多模态数据，以多选题形式评估机器人模型对复杂环境的理解能力，支持Gemini和OpenAI API的评估框架，数据以TFRecord格式存储，适用于学术研究和工业应用。

Gemini与GPT-4V比较工具多模态AI测试工具开源评估框架机器人多模态推理问答基准

ACT-Bench官网 – 自动驾驶世界模型评估框架

ACT-Bench 是一个开源的评估框架，专注于自动驾驶世界模型的行动可控性。它帮助研究人员量化模型在给定特定轨迹时生成驾驶场景的能力，例如如何根据预设路径生成逼真的驾驶视频。该框架包括一个基于 nuScenes 的大型数据集和一个名为 Terra 的基准模型，用于评估模型的行动保真度。ACT-Bench 通过生成视频并与地面真相比较来量化模型的行动可控性，支持研究人员测试其自己的世界模型，并与基准模型进行比较。

开源评估框架自动驾驶世界模型评估框架行动可控性量化工具

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

开源评估框架

通过字节跳动免费使用满血可联网DeepSeek R1

现在注册，立即送145元代金券