机器人多模态推理问答基准

ERQA（Embodied Reasoning Question Answer）是由Google DeepMind开源的机器人领域多模态推理问答基准，包含400个真实场景问题，涵盖空间推理和世界知识。它通过文本和图像等多模态数据，以多选题形式评估机器人模型对复杂环境的理解能力，支持Gemini和OpenAI API的评估框架，数据以TFRecord格式存储，适用于学术研究和工业应用。

Gemini与GPT-4V比较工具多模态AI测试工具开源评估框架机器人多模态推理问答基准

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。