MILS是由Meta AI开发的创新框架,通过结合大型语言模型(LLM)的推理能力和现有多模态模型,实现零样本多模态学习。它无需额外训练即可处理图像、视频和音频数据,在描述任务中达到最先进水平,并支持媒体生成和跨模态运算。