DexGraspVLA是一个面向通用灵巧抓取的视觉-语言-动作框架,能够在复杂场景中实现超过90%的抓取成功率,有效解决机器人在真实世界中抓取多样化物体的难题。该框架结合了预训练的视觉语言模型与扩散策略,实现了复杂任务的高效推理,并提供了可视化工具,帮助理解模型内部行为。