所有AI工具AI开发框架AI视频工具

Unified Video Action Model (UVA)官网 – 机器人视频理解与动作预测的统一模型

UVA是一个专为机器人设计的模型,通过两阶段训练(视频生成+动作预测)实现视频理解与动作预测的统一。 它采用联合潜在空间优化、解耦解码等技术,支持多种机器人任务数据集(如Pu...

标签:

AI交流(进群备注:Unified Video Action Model (UVA))

UVA是一个专为机器人设计的模型,通过两阶段训练(视频生成+动作预测)实现视频理解与动作预测的统一。
它采用联合潜在空间优化、解耦解码等技术,支持多种机器人任务数据集(如PushT、Libero10),在多项任务中超越现有先进模型。
项目提供Colab笔记本快速体验,适用于模拟和真实机器人场景。

Unified Video Action Model (UVA)的特点:

  • 1. 联合视频-动作优化:统一潜在空间建模视频与动作关系
  • 2. 解耦视频-动作解码:推理时跳过视频生成提升效率
  • 3. 掩码输入训练:单模型处理多任务,减少过拟合
  • 4. 支持PushT/Libero10等机器人数据集
  • 5. 多任务性能超越DP-UMI等先进模型
  • 6. 提供Colab笔记本快速体验入口

Unified Video Action Model (UVA)的功能:

  • 1. 机器人推块任务的动作策略指导
  • 2. 基于视觉变化的逆向动力学预测
  • 3. 未来4帧视频生成(需高算力支持)
  • 4. 利用无动作视频数据进行扩展训练
  • 5. 多模态扩展(如声音/力传感器数据整合)
  • 6. 机器人长期任务规划(如Libero10长时程任务)

相关导航

暂无评论

暂无评论...