2025年最强大的口语视觉问答AI工具推荐

Babillage Dataset模型 – 多模态视觉语音模型基准数据集

Babillage Dataset 是一个多模态基准数据集，专为评估视觉语音模型（Vision Speech Models）设计。它基于 COCO-Captions、OCR-VQA 和 VQAv2 数据集，提供了口语化的问答对，适合研究对话式 AI、口语视觉问答和多模态对话系统。数据集包含三个子部分：Conversational COCO、Conversational OCR-VQA 和 Conversational VQAv2，每个子部分都有验证集和测试集，样本数量从数万到数十万不等。每个样本通常包括样本 ID、图像 ID（部分子集）、问题音频、答案音频、转录和时间对齐信息。数据集可通过 Hugging Face 的数据集库加载，并提供代码用于合并和显示样本。