Helix：革新家庭机器人控制的通用视觉-语言-动作模型

0 0

Helix：机器人控制的新里程碑

2025年2月，Figure公司发布了名为Helix的通用视觉-语言-动作（VLA）模型，这一模型旨在解决机器人领域的多个长期挑战。Helix通过整合感知、语言理解和动作控制，为家庭机器人提供了前所未有的控制能力。这一发布标志着机器人技术在实用化和商业化方面迈出了重要一步。

Helix的核心优势

Helix模型之所以备受关注，主要得益于其在以下方面的突破性表现：

1. 全上身控制

Helix能够精确控制机器人的整个上半身，包括躯干、头部、手腕和手指，具备35个自由度（DoF）。这种高精度的控制能力使得机器人能够执行更复杂、更人性化的动作，例如在视觉引导下调整躯干以优化抓取动作。

2. 多机器人协作

Helix支持多机器人协同工作，这一功能在家庭场景中尤为重要。例如，在Figure的演示中，两个机器人能够独立完成任务，并在需要时相互协作，将物品传递到对方可触及的位置。这种协作能力为更复杂的任务（如家具组装）奠定了基础。

3. 自然语言指令理解

Helix能够理解并响应自然语言指令，用户无需提供详细的操作步骤。例如，用户只需说“把饼干递给右边的机器人”，机器人便能准确执行。这种能力大大降低了机器人使用的门槛。

4. 单个神经网络架构

与以往需要为不同任务训练多个模型的系统不同，Helix使用单一的神经网络架构处理所有行为。这不仅简化了模型，还提高了其适应性和效率。

5. 商业就绪性

Helix完全运行在嵌入式GPU上，具有低功耗和低延迟的特点，使其适合在家庭环境中实时操作。Figure公司已开始将其机器人系统推向市场，并计划在未来四年内交付10万台机器人。

Helix：革新家庭机器人控制的通用视觉-语言-动作模型

技术背后的创新

Helix的研发基于约500小时的高质量多机器人、多操作员数据集。Figure公司通过自动标注技术生成自然语言条件训练对，进一步提高了模型的效率。此外，Helix采用了双系统架构：System 2负责高层次的规划，而System 1则执行实时动作控制。这种架构使得机器人能够在复杂环境中快速响应并完成任务。