Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

Babillage Dataset 是一个多模态基准数据集,专为评估视觉语音模型(Vision Speech Models)设计。它基于 COCO-Captions、OCR-VQA 和 VQAv2 数据集,提供了口语化的问答对,适合研究对话式 AI、口语视觉问答和多模态对话系统。数据集包含三个子部分:Conversational COCO、Conversational OCR-VQA 和 Conversational VQAv2,每个子部分都有验证集和测试集,样本数量从数万到数十万不等。每个样本通常包括样本 ID、图像 ID(部分子集)、问题音频、答案音频、转录和时间对齐信息。数据集可通过 Hugging Face 的数据集库加载,并提供代码用于合并和显示样本。
Babillage Dataset的特点:
- 1. 多模态数据集,结合视觉和语音信息
- 2. 基于 COCO-Captions、OCR-VQA 和 VQAv2 数据集转化而来
- 3. 包含三个子数据集:Conversational COCO、Conversational OCR-VQA 和 Conversational VQAv2
- 4. 每个样本包含问题音频、答案音频、转录和时间对齐信息
- 5. 支持图像描述、视觉问答、光学字符识别相关问答等任务
Babillage Dataset的功能:
- 1. 评估视觉语音模型在口语对话格式中的视觉问答能力
- 2. 研究对话式 AI 和多模态对话系统的性能
- 3. 用于实时交互场景下的模型表现研究
- 4. 通过 Hugging Face 数据集库加载数据,方便研究和开发
相关导航
暂无评论...