VideoRefer是浙江大学和阿里达摩学院联合推出的视频对象感知与推理技术,基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,能够对视频中的任意对象进行细粒度的感知和推理。项目包含三个核心组件:VideoRefer-700K数据集、VideoRefer模型和VideoRefer-Bench基准,分别用于提供大规模高质量的对象级视频指令数据、支持单帧和多帧输入的对象编码器,以及评估模型在视频指代任务中的性能。