Florence-VL是微软开源的多模态模型,具备强大的图像理解能力,能够从不同角度深入理解图片内容并给出准确回复。其核心在于升级的视觉编码器和深度-广度融合(DBFusion)机制,支持多层次、多方面的视觉特征捕获和融合,超越了传统的CLIP式视觉Transformer模型。