AI交流(进群备注:Unified Video Action Model (UVA))

UVA是一个专为机器人设计的模型,通过两阶段训练(视频生成+动作预测)实现视频理解与动作预测的统一。
它采用联合潜在空间优化、解耦解码等技术,支持多种机器人任务数据集(如PushT、Libero10),在多项任务中超越现有先进模型。
项目提供Colab笔记本快速体验,适用于模拟和真实机器人场景。
Unified Video Action Model (UVA)的特点:
- 1. 联合视频-动作优化:统一潜在空间建模视频与动作关系
- 2. 解耦视频-动作解码:推理时跳过视频生成提升效率
- 3. 掩码输入训练:单模型处理多任务,减少过拟合
- 4. 支持PushT/Libero10等机器人数据集
- 5. 多任务性能超越DP-UMI等先进模型
- 6. 提供Colab笔记本快速体验入口
Unified Video Action Model (UVA)的功能:
- 1. 机器人推块任务的动作策略指导
- 2. 基于视觉变化的逆向动力学预测
- 3. 未来4帧视频生成(需高算力支持)
- 4. 利用无动作视频数据进行扩展训练
- 5. 多模态扩展(如声音/力传感器数据整合)
- 6. 机器人长期任务规划(如Libero10长时程任务)
相关导航
暂无评论...