所有AI工具AI开发框架AI开源项目AI视频工具

VideoRefer开源项目 – 视频对象感知与推理技术

VideoRefer是浙江大学和阿里达摩学院联合推出的视频对象感知与推理技术,基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,能够对视频中的任意对象进行细粒度的感知和...

标签:

AI交流(进群备注:VideoRefer)

VideoRefer是浙江大学和阿里达摩学院联合推出的视频对象感知与推理技术,基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,能够对视频中的任意对象进行细粒度的感知和推理。项目包含三个核心组件:VideoRefer-700K数据集、VideoRefer模型和VideoRefer-Bench基准,分别用于提供大规模高质量的对象级视频指令数据、支持单帧和多帧输入的对象编码器,以及评估模型在视频指代任务中的性能。

VideoRefer的特点:

  • 1. 增强视频大型语言模型的空间-时间理解能力
  • 2. 支持单帧和多帧输入的对象编码器
  • 3. 提供大规模高质量的对象级视频指令数据集
  • 4. 包含全面的基准测试工具VideoRefer-Bench
  • 5. 支持细粒度的对象感知、推理和检索

VideoRefer的功能:

  • 1. 用于视频中的对象级细粒度感知和推理
  • 2. 用于视频对象指代任务的性能评估
  • 3. 用于生成对象级详细描述和问答
  • 4. 用于多帧视频中的对象关系分析
  • 5. 用于视频对象检索任务

相关导航

暂无评论

暂无评论...