VLM模型:具身智能的核心驱动力
近年来,视觉语言模型(VLM)在具身智能领域的应用取得了显著进展。VLM模型通过结合视觉和语言输入,能够生成复杂的动作输出,使机器人具备更高的智能水平和适应能力。本文将重点探讨Figure的Helix和智元机器人的GO-1大模型,这两者在VLM模型的应用上各有千秋,共同推动了具身智能的发展。
Helix:高频率连续控制的突破
Figure推出的Helix大模型是首个能够输出高频率连续控制整个仿人上半身的VLA模型。Helix内置双系统,协同运行带来速度与泛化的良好兼顾。具体来说,Helix通过以下特点实现了这一突破:
- 双系统协同:Helix的System 2(S2)负责场景理解和语言理解,System 1(S1)则负责将S2的输出转化为精确的连续机器人动作。这种解耦架构允许每个系统在其最佳时间尺度上运行。
- 高频率控制:Helix能以200Hz频率协调35自由度动作空间,使机器人的上半身动作流畅高效。
- 多机器人协作:Helix是首个能在两台机器人上同时操作的VLA模型,展示了多机协作的潜力。
GO-1:泛化能力与持续进化的典范
智元机器人的GO-1大模型则通过ViLLA架构提升了泛化能力和持续进化能力。GO-1的特点可以归纳为以下几个方面:
- ViLLA架构:GO-1提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)和MoE(混合专家模型)组成,能够有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据。
- 小样本快速泛化:GO-1具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务。
- 持续进化:GO-1搭配一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。
应用前景:从家庭到工业
Helix和GO-1的成功应用展示了具身智能在家庭、工业等领域的广阔前景。例如,Helix能够通过自然语言提示拾取绝大多数家用品,而GO-1则能够在不同机器人形态之间迁移,快速适配到不同本体。这些技术的应用将极大地提升机器人的智能化水平,使其在更多场景中发挥重要作用。
结论
VLM模型在具身智能领域的应用正迎来新的突破。Helix和GO-1的成功不仅展示了技术的进步,更为未来的应用提供了无限可能。随着技术的不断成熟,具身智能将在更多领域实现广泛应用,推动机器人技术迈向新的高度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...