Magma是微软开源的多模态AI Agent基础模型,能够处理图像、视频、文本等多种数据类型,并具备心理预测功能,跨越数字和物理世界。它为虚拟与现实世界的交互提供强大支持,适用于复杂的交互任务,如UI导航和机器人操作,并在这些任务上达到SOTA性能。Magma还具备从海量未标注视频中学习的能力,展现出强大的泛化能力。