Magma官网 – 多模态代理AI模型
Magma是一个多模态代理AI模型,能够根据输入的文本和图像生成文本。该模型专为研究目的设计,旨在共享知识并加速多模态AI的研究,特别是多模态代理AI。Magma是第一个多模式AI代理的基础模型,旨在处理虚拟和现实环境中的复杂交互。它作为单一模型具有通用的图像和视频理解能力,并能生成目标驱动的视觉计划和动作,使其能够灵活地完成不同的代理任务。Magma在各种多模式任务上实现了最先进的性能,包括UI导航、机器人操作以及通用图像和视频理解,特别是空间理解和推理。此外,Magma还被设计为从未标记的视频中进行可扩展地学习,从而具有很强的泛化能力,适合现实世界的应用。