UVA是一个专为机器人设计的模型,通过两阶段训练(视频生成+动作预测)实现视频理解与动作预测的统一。 它采用联合潜在空间优化、解耦解码等技术,支持多种机器人任务数据集(如PushT、Libero10),在多项任务中超越现有先进模型。 项目提供Colab笔记本快速体验,适用于模拟和真实机器人场景。
Unified Video Action Model 是一个专注于视频与动作建模的项目,旨在帮助机器人理解视频内容并预测后续动作。通过两阶段的训练方法,先进行视频生成,再进行动作预测,从而实现更优的效果。该项目支持多种模拟与真实机器人任务,涵盖了PushT、Libero10等数据集,并提供了Colab笔记本,方便用户快速上手体验。