2025年最强大的Video LLMsAI工具推荐

VideoRefer开源项目 – 视频对象感知与推理技术

VideoRefer是浙江大学和阿里达摩学院联合推出的视频对象感知与推理技术，基于增强视频大型语言模型（Video LLMs）的空间-时间理解能力，能够对视频中的任意对象进行细粒度的感知和推理。项目包含三个核心组件：VideoRefer-700K数据集、VideoRefer模型和VideoRefer-Bench基准，分别用于提供大规模高质量的对象级视频指令数据、支持单帧和多帧输入的对象编码器，以及评估模型在视频指代任务中的性能。