Florence-2-large 是微软开发的一个视觉语言模型,基于序列到序列学习范式,支持多种视觉任务。它通过 FLD-5B 数据集训练,包含 126 百万张图像和 54 亿个全面视觉注释,能够处理复杂的视觉数据,如对象位置、遮罩轮廓和属性,并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。
MASt3R 是一个专注于在三维空间中实现精确图像匹配的创新项目。它通过结合深度学习技术和三维几何约束,显著提高了图像匹配的准确性和鲁棒性。项目提供了预训练模型和详细的训练流程,支持视觉定位、场景重建等任务。MASt3R 的核心在于其独特的架构设计,能够有效提取图像特征并在三维空间中建立对应关系。
DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型,旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展,特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。
MegaLoc是一款专为各种定位任务设计的强大图像检索模型,能够在海量图像中精准找到目标,是视觉定位任务的利器。