DINOv2开源项目 – Meta开源的自监督视觉模型

DINOv2是Meta AI开发的最先进计算机视觉模型，具有自监督学习功能，无需大量标注数据即可训练。它能够直接从图像中学习特征，适用于图像分类、分割、检索和深度估计等多种任务。DINOv2的预训练版本已上线，与CLIP和OpenCLIP等模型竞争，并在众多任务中表现出色。

DINOv2的特点:

1. 无需大量标注数据，即可训练计算机视觉模型
2. 多功能主干：图像分类、分割、图像检索和深度估计
3. 直接从图像中学习特征，而无需依赖文本描述
4. 可以从任何图像集合中学习
5. DINOv2 的预训练版本已上线，并在众多任务中与 CLIP 和 OpenCLIP 竞争
6. 自监督学习：无需标签数据，利用无监督学习生成高质量特征
7. 高效性能：在多个视觉任务中表现优异，尤其适用于图像理解
8. 易于扩展：支持多种数据集和任务，可以根据需求进行定制
9. 开源免费：完全开源，社区可以参与和贡献

DINOv2的功能:

1. 作为计算机视觉任务的主干模型
2. 在无监督情况下进行图像分类和分割
3. 进行图像检索
4. 进行深度估计
5. 视频分割：从视频输入生成高质量的分割
6. 对象部分理解：稳健地理解和分析图像中的对象部分
7. 语义图像理解：深入理解图像的语义内容
8. 深度估计：从图像中学习和估计深度
9. 交互式演示：利用提供的演示探索和交互模型的功能
10. 图像分类：在无需标签的情况下进行高效的图像分类
11. 目标检测：利用自监督学习进行目标检测
12. 图像检索：生成高质量视觉表示，用于图像检索任务
13. 定制任务：根据需求扩展和定制模型以适应特定视觉任务

相关导航

mCTSegmentation开源项目 – 深度学习微CT图像分割

mCTSegmentation是一个专门用于人类骨软骨组织中微计算机断层扫描（micro-CT）图像的分割项目，特别关注于骨软骨组织的骨膜分割。该项目由奥卢大学的研究人员开发，采用深度学习技术进行分割任务，并且是开源的，代码可在GitHub上获取。

LLaVA-Interactive-Demo开源项目 – 图像聊天与生成的AI应用

融合图像聊天、分割和生成/编辑的AI应用概念验证项目，基于LLaVA、SEEM和GLIGEN三个相关开源项目实现。

GrUMoDepth开源项目 – 基于梯度的不确定性单目深度估计

GrUMoDepth 是一种通过梯度方法进行的不确定性估计，专注于单目深度估计，旨在提高深度估计的准确性和可靠性。

GPT4视觉用例集锦开源项目 – 多种视觉任务的强大工具

GPT4视觉用例集锦是一个集合了多种视觉任务的项目，基于最新的GPT-4模型，提供丰富的示例和用例，旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口，支持图像分类、对象检测、图像生成和视觉问答等功能，适用于广泛的应用场景。

UniMVSNet开源项目 – 统一深度估计的多视图立体

UniMVSNet是一种统一的深度估计方法，旨在改进多视图立体的准确性，能够在不同条件下保持稳健的性能。

dinov2-finetune开源项目 – DINOv2编码器微调助手

DINOv2编码器微调助手利用低秩适应（LoRA）技术对视觉任务进行编码器权重微调，简化新任务适配过程，显著提高模型在图像分割等视觉任务上的表现。该项目支持DINOv2编码器的微调，优化视觉任务的性能，适用于计算机视觉领域的各种任务。

YOLOE开源项目 – 高效目标检测与分割模型

YOLOE是一个实时高效的目标检测与分割模型，支持文本、视觉和无提示三种模式，具有卓越的零样本文本提示性能，训练成本降低3倍，推理速度快，YOLOE-v8-S在LVIS上的AP达到27.9，速度提升1.4倍。

Model Zoo for MindSpore开源项目 – MindSpore预训练模型库

Model Zoo for MindSpore 是一个为MindSpore深度学习框架提供预训练模型和示例的仓库。它包含了多种深度学习任务的模型，如图像分类、目标检测和自然语言处理等，支持用户快速集成到MindSpore框架中。该仓库定期更新，提供详细的文档和使用示例，帮助用户更好地理解和使用这些模型。

Few-shot learning with noisy labels开源项目 – 处理噪声标签的少样本学习方法

一种处理噪声标签的少样本学习方法，旨在提高模型在标签不准确情况下的学习能力。该方法利用少量标记样本进行训练，具备对标签噪声的鲁棒性，适用于图像分类等任务。

Sapiens官网 – 提升人类视觉任务的精度和效率

Sapiens 是由 Meta 开发的一种新型人类视觉模型，旨在通过深度学习技术模拟人类视觉感知。它基于大量图像数据和高级算法，支持 1K 高分辨率推理，适合多种人类相关的视觉任务。该项目在二维姿态估计、身体部位分割、深度估计和表面法向量预测等任务上表现出色，尤其在野外数据上的泛化能力显著。Sapiens 通过预训练于超过 3 亿张野外人类图像，展示了卓越的性能，并通过简单微调适应各种任务。

Segment Anything Model 2 (SAM 2)开源项目 – 图像和视频对象分割的开源AI模型

SAM 2 是 Meta AI 团队开发的开源 AI 模型，专注于图像和视频中的对象分割任务。它是全球首个支持视频实时抠像的 AI 大模型，能够在零样本前提下实现精准的对象分割。Meta 还提供了基于网络的演示体验，并共享了用于构建 SAM 2 的数据集 SA-V，许可为 CC BY 4.0。SAM 2 的设计基于简单的 Transformer 架构，支持实时视频处理，并提供了一个模型在环的数据引擎，通过用户交互改进模型和数据。

segment_anything_tensorrt开源项目 – 用Tensorrt加速SAM模型推理

该项目通过Tensorrt技术加速SAM模型的推理过程，旨在提升图像分割的效率和性能，确保其在多种硬件平台上的兼容性，适用于各类深度学习应用。