计算机视觉

WeCLIP开源项目 – 用于弱监督语义分割的强大模型

WeCLIP开源项目 – 用于弱监督语义分割的强大模型

WeCLIP是一个强大的语义分割模型，基于冻结的CLIP结构，致力于弱监督学习，通过有效的特征提取提升图像分割的性能，适用于各种计算机视觉任务。

图像分割弱监督语义分割模型计算机视觉

Spatial Transformer Network (STN) with Thin Plate Spline (TPS)开源项目 – 基于TPS的空间变换网络

Spatial Transformer Network (STN) with Thin Plate Spline (TPS)开源项目 – 基于TPS的空间变换网络

该项目是一个基于PyTorch实现的Spatial Transformer Network (STN)，采用Thin Plate Spline (TPS)技术进行空间变换，能够灵活地对输入图像进行几何变换，支持高效的训练与推理。

PyTorch实现Thin Plate Spline图像配准图像预处理

DoubleTake开源项目 – 几何引导的深度估计

DoubleTake开源项目 – 几何引导的深度估计

DoubleTake 是一个几何引导的深度估计项目，旨在高效处理稀疏视图，以提升计算机视觉任务中的深度估计精度。

三维重建几何引导深度估计计算机视觉

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

3D形状匹配DenseMatcher-3D语义匹配工具增强现实机器人抓取

MultiPly开源项目 – 通过视频重建3D图像

MultiPly是一个通过野外单目视频重建多人3D图像的项目，能够处理人物之间的遮挡和相互作用，使用先进的神经表征技术进行场景建模，并结合自监督的3D分割及可提示的2D分割模块，提供高效的人体姿势和形状优化。

3D图像重建动作捕捉增强现实多人互动分析

MVDD：多视角深度扩散模型-通过多视角深度模型生成高质量点云

MVDD利用多视角深度和扩散模型来表示复杂的三维形状，并将其映射到二维数据格式中。该模型能够生成高质量、密度较高的点云，包含细致的细节，点数可达20,000个以上。

三维形状建模动画制作图形设计增强现实

Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection开源项目 – 利用跨模态知识蒸馏的单目3D目标检测网络

Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection开源项目 – 利用跨模态知识蒸馏的单目3D目标检测网络

该网络旨在利用跨模态知识蒸馏技术进行单目3D目标检测，以提高目标检测任务的准确性。

单目3D目标检测机器人技术自主驾驶计算机视觉

Multimodal Semi-Supervised Learning for Text Recognition开源项目 – 用于文本识别的多模态半监督学习方法

Multimodal Semi-Supervised Learning for Text Recognition开源项目 – 用于文本识别的多模态半监督学习方法

该项目提供了一种利用多模态半监督学习进行文本识别的方法，结合了标记和未标记数据以提高识别精度。

AI文本识别多模态半监督学习文本识别计算机视觉

ArcNerf开源项目 – 基于NeRF的先进渲染与提取框架

ArcNerf开源项目 – 基于NeRF的先进渲染与提取框架

ArcNerf是一个由多种尖端NeRF技术构成的框架，具备新视角渲染和对象提取等实用功能，支持高效模型训练和灵活架构设计。

3D对象重建增强现实对象提取新视角渲染

YOLO-NAS Pose开源项目 – 高效的深度学习训练框架

YOLO-NAS Pose开源项目 – 高效的深度学习训练框架

一个高效的深度学习训练框架，旨在简化模型训练和优化过程，提供了多种预训练模型和工具，适用于计算机视觉任务。

分布式训练深度学习训练框架计算机视觉超参数优化

Annotation Tools开源项目 – 开源标注工具，服务于视觉与NLP任务

Annotation Tools开源项目 – 开源标注工具，服务于视觉与NLP任务

Annotation Tools是一个面向计算机视觉和自然语言处理任务的开源标注工具列表，旨在提供多种标注类型和功能以满足不同项目的需求。用户可以通过友好的界面轻松选择和使用各种标注工具，同时支持团队协作和项目管理，提升工作效率。

团队协作开源标注工具自然语言处理计算机视觉

GrUMoDepth开源项目 – 基于梯度的不确定性单目深度估计

GrUMoDepth开源项目 – 基于梯度的不确定性单目深度估计

GrUMoDepth 是一种通过梯度方法进行的不确定性估计，专注于单目深度估计，旨在提高深度估计的准确性和可靠性。

三维重建单目深度估计深度估计自动驾驶

HQTrack开源项目 – 高质量跟踪任何内容

HQTrack开源项目 – 高质量跟踪任何内容

HQTrack 是一个高效的跟踪系统，能够准确地跟踪多种类型的目标，适用于实时视频处理，支持灵活的集成与使用。

API调用命令行工具实时视频处理计算机视觉

Gradient-SDF开源项目 – 用于3D重建的半隐式表面表示

Gradient-SDF开源项目 – 用于3D重建的半隐式表面表示

Gradient-SDF是一个半隐式表面表示项目，专注于3D重建，能够从图像中提取结构信息并生成高质量的三维模型。该项目利用先进的算法来实现高效的3D重建，适用于各种计算机视觉应用。

3D重建半隐式表面表示计算机视觉

Phoenix-一个notebook开源项目 – first的Python库

Phoenix-一个notebook开源项目 – first的Python库

Phoenix是一个notebook-first的Python库，利用嵌入技术发现LLM、计算机视觉(CV)、自然语言处理(NLP)和表格模型中的潜在现象和问题。它支持多种模型的可观察性，提供洞察发现工具，帮助识别和解决模型问题，并集成监控功能以实时跟踪模型性能，同时支持模型的微调和优化。

LLM可观察性notebook-first Python库数据分析工具模型微调

Janus-Pro开源项目 – 统一多模态理解和生成的先进模型

Janus-Pro开源项目 – 统一多模态理解和生成的先进模型

Janus-Pro是DeepSeek发布的多模态大模型，专注于图像生成和理解。它采用自回归框架，通过分离视觉编码为‘理解’和‘生成’两条路径，提升了框架的灵活性和性能。该模型在图像生成、图像描述、地标识别、视觉常识、OCR等任务上表现出色，并在多模态理解和文本到图像生成基准测试中取得了SOTA性能。模型规模扩展至70亿参数，支持多种输入形式的理解和生成，适用于各种多模态应用场景。

Janus框架图像与文本联合理解多模态理解与生成自然语言处理

Toronto Warehouse Incremental Change Dataset开源项目 – 清晰路径机器人仓库增量数据集

Toronto Warehouse Incremental Change Dataset开源项目 – 清晰路径机器人仓库增量数据集

Toronto Warehouse Incremental Change Dataset 是一个新发布的数据集，来源于清晰路径机器人仓库，旨在提供增量感知数据，支持机器人导航和环境理解的研究。

增量感知数据集机器人导航机器学习环境理解

InsPLAD开源项目 – 电力线路资产检查数据集

InsPLAD开源项目 – 电力线路资产检查数据集

InsPLAD是一个专注于电力线路资产检查的数据集，为机器学习和计算机视觉应用提供多样化的检测场景，用于研究和开发电力设施检查算法。

机器学习应用电力线路资产检查数据集电力设施检查算法计算机视觉

pytorch3d开源项目 – 简化3D深度学习模型实现的库

pytorch3d开源项目 – 简化3D深度学习模型实现的库

PyTorch3D是一个用于3D计算机视觉和图形的库，使用户能够轻松实现和实验3D深度学习模型。

3D模型实现3D深度学习PyTorch3D神经渲染

从零到精通深度学习 PyTorch开源项目 – 一份系统的 PyTorch 在线教程

从零到精通深度学习 PyTorch开源项目 – 一份系统的 PyTorch 在线教程

分享 GitHub 上一份开源免费的在线教程，涵盖了 PyTorch 基础知识、神经网络、计算机视觉、自定义数据集处理、模块化代码编写以及模型部署等内容。

PyTorch在线教程开源项目模型部署深度学习

Salad – GPU Cloud-高效智能GPU云平台

Salad 是一个提供超过10,000个GPU的云平台，专为生成式AI设计。它允许用户节省高达90%的云计算费用，并轻松部署AI/ML生产模型。用户可以通过注册账户、选择资源、容器化应用程序，Salad将管理其余的操作。

AI/ML模型部署GPU云平台云计算费用节省图像生成

Undress AI Pro官网 – 智能去衣图像处理工具

Undress AI Pro是一个基于计算机视觉的应用程序，通过机器学习技术将人像中的衣物去除，生成合成裸露图像。用户只需上传照片，即可在几分钟内获得处理结果。该项目在技术上具有争议性，同时也为探索计算机视觉技术提供了新的视角。

图像生成智能去衣图像处理工具机器学习计算机视觉

PoseTracker API官网 – 实时用户运动追踪工具

PoseTracker API是一个用于实时人体运动分析的前沿解决方案，适用于移动和Web应用。它利用人工智能和计算机视觉提供超稳定的姿态估计和运动追踪，方便开发者集成先进的姿态检测技术。

AI姿态检测健身应用开发实时运动追踪工具计算机视觉

VENDOR官网 – 一键生成商品列表

VENDOR是一个利用计算机视觉技术的工具，用户只需上传一张照片和简短描述，AI便能即时生成完整的商品列表，包括定价和详细描述，现支持美国eBay，欢迎反馈其他市场需求！

eBay商品发布商品列表生成工具电商平台描述生成计算机视觉

Logistify AI官网 – 自动化库存验证解决方案

Logistify AI利用计算机视觉为仓库和工厂提供自动化库存验证，减少因人工计数带来的库存损失，并通过自动化监控降低劳动力成本。该平台可以与现有的ERP系统和监控摄像头集成，自动识别每个SKU并与ERP装载清单进行核对。

ERP系统集成劳动力成本降低库存管理自动化库存验证

Maintain-AI – Good Roads Cost Less-自动化道路基础设施检测平台

Maintain-AI是一个自动化检测、分析和报告道路及相关基础设施性能的平台，利用AI技术检测路面缺陷，评估基础设施元素，并提供客观的网络检查。

AI基础设施评估机器学习自动化道路检测计算机视觉

Unitlab AI官网 – AI驱动的数据管理与标注平台

Unitlab是一个基于AI的平台，旨在帮助计算机视觉任务管理、标注和增强数据。它为机器学习团队提供了简单直接的数据标注工作流程。用户可以通过注册、上传数据、与人类标注者合作、使用AI助手审核和增强标注数据，最终利用这些数据训练机器学习模型。

AI助手团队协作多领域支持数据标注

Label Studio官网 – 灵活的数据标注工具

Label Studio是一个开源数据标注工具，旨在为计算机视觉、自然语言处理、语音、音频和视频模型准备训练数据。它支持多种数据类型的标注，适用于多个项目和用户。

开源项目数据标注工具自然语言处理视频处理

LLM Sandbox by Dioptra官网 – 开源数据管理平台，助力模型优化

Dioptra是一个开源的数据策展和管理平台，旨在支持计算机视觉、自然语言处理和大型语言模型。它帮助用户策划有价值的未标记数据，注册元数据，诊断模型失效模式，并与标注和再训练系统整合。

开源数据管理平台数据策展模型优化自然语言处理

SpriteAI官网 – 强大的AI平台

SpriteAI是一个提供先进机器学习能力的数据分析、计算机视觉和自然语言处理的AI平台。用户可以在网站上注册账户，选择所需功能，上传数据或提供数据访问，平台将使用AI算法进行分析，生成有价值的见解和预测。

AI代理图像识别情感分析推荐系统

1 2 3 4

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3