UVA是一个专为机器人设计的模型,通过两阶段训练(视频生成+动作预测)实现视频理解与动作预测的统一。 它采用联合潜在空间优化、解耦解码等技术,支持多种机器人任务数据集(如PushT、Libero10),在多项任务中超越现有先进模型。 项目提供Colab笔记本快速体验,适用于模拟和真实机器人场景。