视觉定位

Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

OCR字幕生成目标检测视觉分割

MASt3R开源项目 – 三维空间中的精确图像匹配

MASt3R开源项目 – 三维空间中的精确图像匹配

MASt3R 是一个专注于在三维空间中实现精确图像匹配的创新项目。它通过结合深度学习技术和三维几何约束，显著提高了图像匹配的准确性和鲁棒性。项目提供了预训练模型和详细的训练流程，支持视觉定位、场景重建等任务。MASt3R 的核心在于其独特的架构设计，能够有效提取图像特征并在三维空间中建立对应关系。

Docker部署三维图像匹配场景重建深度学习

DeepSeek-VL2开源项目 – 多模态视觉语言模型

DeepSeek-VL2开源项目 – 多模态视觉语言模型

DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型，旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展，特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。

OCR图表理解多模态视觉语言模型文档理解

MegaLoc开源项目 – 强大的图像检索模型

MegaLoc开源项目 – 强大的图像检索模型

MegaLoc是一款专为各种定位任务设计的强大图像检索模型，能够在海量图像中精准找到目标，是视觉定位任务的利器。

SOTA性能图像检索模型开源项目视觉定位

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3