标签:视觉语言任务

多模态学习中的Transformer架构:MDETR的突破与未来

Transformer架构在多模态学习中展现出强大潜力,特别是在结合视觉、文本和音频等多源数据时表现突出。MDETR(Multimodal Detr)通过将目标检测与文本描述相结...