SpatialVLA是由上海AI实验室、中国电信AI研究院和上海科技大学联合开发的空间增强型视觉-语言-行动模型, 基于110万真实机器人场景训练,专注于提升机器人在复杂环境中的操作能力。 该模型创新性地整合了3D第一人称位置编码和自适应动作网格技术,仅需8.5GB GPU内存即可高效运行, 在零样本学习和跨平台泛化控制方面表现优异,支持工业制造、物流仓储等多种实际应用场景。