VLM模型革命:从Helix到GO-1,具身智能的新纪元

AI快讯2个月前发布 admin
0 0

VLM模型革命:从Helix到GO-1,具身智能的新纪元

VLM模型具身智能的核心驱动力

近年来,视觉语言模型(VLM)在具身智能领域的应用取得了显著进展。VLM模型通过结合视觉和语言输入,能够生成复杂的动作输出,使机器人具备更高的智能水平和适应能力。本文将重点探讨Figure的Helix和智元机器人的GO-1大模型,这两者在VLM模型的应用上各有千秋,共同推动了具身智能的发展。

VLM模型革命:从Helix到GO-1,具身智能的新纪元

Helix:高频率连续控制的突破

Figure推出的Helix大模型是首个能够输出高频率连续控制整个仿人上半身的VLA模型。Helix内置双系统,协同运行带来速度与泛化的良好兼顾。具体来说,Helix通过以下特点实现了这一突破:

  • 双系统协同:Helix的System 2(S2)负责场景理解和语言理解,System 1(S1)则负责将S2的输出转化为精确的连续机器人动作。这种解耦架构允许每个系统在其最佳时间尺度上运行。
  • 高频率控制:Helix能以200Hz频率协调35自由度动作空间,使机器人的上半身动作流畅高效。
  • 多机器人协作:Helix是首个能在两台机器人上同时操作的VLA模型,展示了多机协作的潜力。

VLM模型革命:从Helix到GO-1,具身智能的新纪元

GO-1:泛化能力与持续进化的典范

智元机器人的GO-1大模型则通过ViLLA架构提升了泛化能力和持续进化能力。GO-1的特点可以归纳为以下几个方面:

  • ViLLA架构:GO-1提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)和MoE(混合专家模型)组成,能够有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据。
  • 小样本快速泛化:GO-1具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务。
  • 持续进化:GO-1搭配一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

应用前景:从家庭到工业

Helix和GO-1的成功应用展示了具身智能在家庭、工业等领域的广阔前景。例如,Helix能够通过自然语言提示拾取绝大多数家用品,而GO-1则能够在不同机器人形态之间迁移,快速适配到不同本体。这些技术的应用将极大地提升机器人的智能化水平,使其在更多场景中发挥重要作用。

结论

VLM模型在具身智能领域的应用正迎来新的突破。Helix和GO-1的成功不仅展示了技术的进步,更为未来的应用提供了无限可能。随着技术的不断成熟,具身智能将在更多领域实现广泛应用,推动机器人技术迈向新的高度。

© 版权声明

相关文章

暂无评论

暂无评论...