探索VLA数据集：从Helix到GO-1，具身智能的未来已来

0 0

VLA数据集：具身智能的核心驱动力

近年来，具身智能（Embodied Intelligence）成为人工智能领域的热点话题，而VLA（Vision-Language-Action）数据集则是其核心驱动力之一。VLA数据集通过结合视觉、语言和动作数据，为机器人提供了从感知到执行的端到端能力。本文将深入探讨VLA数据集的最新进展，重点分析Figure的Helix模型和智元的GO-1模型，揭示具身智能的未来发展方向。

Helix：自然语言控制与多机器人协作的典范

核心特点

Helix是Figure推出的首个通用端到端VLA大模型，具有以下创新点：
1. 自然语言控制：只需向机器人发出自然语言指令，即可完成拾取、分类等任务，无需任何事前代码或培训。
2. 多机器人协作：Helix是首个能在两台机器人上同时操作的VLA模型，实现了零样本杂货存放等高难度任务。
3. 高频率连续控制：以200Hz频率协调35自由度动作空间，实现机器人上半身的流畅控制。

技术突破

Helix采用了“系统1、系统2”双系统架构：
– 系统2（S2）：以7-9Hz频率运行，负责场景理解和语言理解。
– 系统1（S1）：以200Hz频率运行，将S2的语义表征转化为精确的机器人动作。

这种解耦架构兼顾了速度与泛化能力，使Helix能够在非结构化环境中灵活执行任务。

GO-1：ViLLA架构与泛化能力的飞跃

创新架构

智元的GO-1模型基于ViLLA（Vision-Language-Latent-Action）架构，结合了VLM（多模态大模型）和MoE（混合专家）技术：
1. VLM：借助海量互联网图文数据，获得通用场景感知和语言理解能力。
2. Latent Planner：预测隐式动作标记，实现跨本体和人类操作的动作理解。
3. Action Expert：生成精细动作序列，确保高频率且灵活的操作。

泛化能力

GO-1在五种不同复杂度任务上的平均成功率提高了32%，尤其在“倒水”和“清理桌面”等任务中表现突出。其泛化能力得益于以下特点：
– 人类视频学习：结合互联网视频和真实人类示范进行学习。
– 小样本快速泛化：在极少数据甚至零样本下泛化到新场景、新任务。
– 一脑多形：快速适配到不同机器人本体，实现群体升智。