V-JEPA官网 – 视频自监督学习模型
V-JEPA(Video Joint Embedding Predictive Architecture,视频联合嵌入预测架构)是 Meta AI 于 2024 年 2 月 15 日发布的一种自监督学习方法,旨在通过观看视频学习世界的表示。它基于 Yann LeCun 在 2022 年提出的 JEPA(联合嵌入预测架构)思想,并将其扩展到视频领域,专注于通过预测视频中被遮挡部分的抽象特征表示来训练视觉编码器。V-JEPA 的核心目标是构建一种像人类一样通过观察学习内部世界模型的 AI 系统,支持广义推理和规划。其设计理念是利用自监督学习从未标注的视频数据中提取丰富表示,模拟人类通过观察世界(如学习物理规则)来理解环境的认知过程。