AI交流(进群备注:NegBench)

NegBench 是一个用于评估视觉语言模型(VLM)在理解否定方面的基准测试。它包含多种任务和模态,旨在模拟现实世界的检索系统,并通过大规模合成数据微调显著提高模型在否定场景下的性能。该基准测试涵盖18种任务变体和79,000个示例,涉及图像、视频和医疗数据集。
NegBench的特点:
- 1. 包括两个核心任务:否定检索和带有否定标题的多项选择题
- 2. 涵盖18种任务变体和79,000个示例,涉及图像、视频和医疗数据集
- 3. 提供合成数据集,用于微调模型以改善其在否定任务上的表现
- 4. 支持多种模型,如OpenAI CLIP, CoNCLIP, NegCLIP等
NegBench的功能:
- 1. 研究人员可以使用该基准测试评估他们的视觉语言模型
- 2. 利用提供的合成数据集微调模型,改善其在否定任务上的表现
- 3. 用于医疗图像数据库的查询或多模态信息检索系统
- 4. 评估模型在处理否定语句的复杂应用场景中的表现
相关导航
暂无评论...