AI交流(进群备注:VideoRefer)

VideoRefer是浙江大学和阿里达摩学院联合推出的视频对象感知与推理技术,基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,能够对视频中的任意对象进行细粒度的感知和推理。项目包含三个核心组件:VideoRefer-700K数据集、VideoRefer模型和VideoRefer-Bench基准,分别用于提供大规模高质量的对象级视频指令数据、支持单帧和多帧输入的对象编码器,以及评估模型在视频指代任务中的性能。
VideoRefer的特点:
- 1. 增强视频大型语言模型的空间-时间理解能力
- 2. 支持单帧和多帧输入的对象编码器
- 3. 提供大规模高质量的对象级视频指令数据集
- 4. 包含全面的基准测试工具VideoRefer-Bench
- 5. 支持细粒度的对象感知、推理和检索
VideoRefer的功能:
- 1. 用于视频中的对象级细粒度感知和推理
- 2. 用于视频对象指代任务的性能评估
- 3. 用于生成对象级详细描述和问答
- 4. 用于多帧视频中的对象关系分析
- 5. 用于视频对象检索任务
相关导航

Crosshatch官网 – 实时用户上下文API平台
Crosshatch 是一个技术平台,旨在通过其实时用户上下文 API 帮助开发者提升应用个性化。它允许开发者轻松集成用户习惯和偏好数据,减少用户在不同应用中重复设置的麻烦,提供“开箱即用”的精细化运营能力。该平台成立于 2023 年,总部位于美国佛罗里达州迈阿密,已筹集 270 万美元的种子资金。Crosshatch 的主要功能包括快速用户设置、全站定制、实时体验、权限设置与安全、上下文补全和 Webhooks。开发者可将 Crosshatch API 集成到应用中,用户通过 Crosshatch 连接账户(如 Gmail 和 YouTube),应用即可利用这些数据提供个性化体验。
暂无评论...