Babillage Dataset模型 – 多模态视觉语音模型基准数据集
Babillage Dataset 是一个多模态基准数据集,专为评估视觉语音模型(Vision Speech Models)设计。它基于 COCO-Captions、OCR-VQA 和 VQAv2 数据集,提供了口语化的问答对,适合研究对话式 AI、口语视觉问答和多模态对话系统。数据集包含三个子部分:Conversational COCO、Conversational OCR-VQA 和 Conversational VQAv2,每个子部分都有验证集和测试集,样本数量从数万到数十万不等。每个样本通常包括样本 ID、图像 ID(部分子集)、问题音频、答案音频、转录和时间对齐信息。数据集可通过 Hugging Face 的数据集库加载,并提供代码用于合并和显示样本。