NegBench 是一个用于评估视觉语言模型(VLM)在理解否定方面的基准测试。它包含多种任务和模态,旨在模拟现实世界的检索系统,并通过大规模合成数据微调显著提高模型在否定场景下的性能。该基准测试涵盖18种任务变体和79,000个示例,涉及图像、视频和医疗数据集。