Florence-2-large 是微软开发的一个视觉语言模型,基于序列到序列学习范式,支持多种视觉任务。它通过 FLD-5B 数据集训练,包含 126 百万张图像和 54 亿个全面视觉注释,能够处理复杂的视觉数据,如对象位置、遮罩轮廓和属性,并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。