2025年最强大的图像对象关系分析AI工具推荐

RelateAnything开源项目 – 分析图像中对象之间的关系

这个项目能分析图像中对象之间的关系，是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示：Panoptic Scene Graph Generation。

0

Chinese LLaVA-支持中英文双语视觉开源项目 – 文本对话的开源多模态模型

Chinese LLaVA是一个支持中英文双语的开源多模态模型，能够进行视觉与文本的结合对话，具备高效的理解能力和灵活的应用场景，适合商用开发。

0

中英文双语对话商用开发多模态模型开源AI工具

MiniGPT-4开源项目 – 视觉与语言结合的智能模型

MiniGPT-4是一款结合视觉与语言的大模型，能够基于图片内容生成描述、回答问题，甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色，可识别图像细节、物体关系，并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本，提供强大的自然语言处理能力，适用于多种AI应用场景，包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。

0

MiniGPT-4图像与文本结合应用图像描述生成多模态信息处理

Google Gemini Showcase And Guide官网 – 谷歌最新的多模态AI模型

Gemini是谷歌最大的AI模型，旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色，支持不同尺寸的优化：Ultra、Pro和Nano。Gemini从零开始构建为多模态，能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。

0

代码生成图像生成复杂推理多模态AI模型

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

0

3D形状匹配DenseMatcher-3D语义匹配工具增强现实机器人抓取

LlamaV-o1开源项目 – 大型多模态模型，支持自发推理

LlamaV-o1是一个大型多模态模型，能够进行自发推理。在VCR-Bench基准测试中表现优异，超越了多个知名模型，如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展，使用Beam Search提升效率，特别适合复杂的多步视觉推理任务，具备高准确性和高效率。

0

Beam SearchLlamaV-o1VCR-Bench多模态模型

ID-Blau开源项目 – 通过隐式扩散去模糊图像

ID-Blau是一个基于隐式扩散的方法，用于图像去模糊，通过重模糊增强技术来提升图像质量，适用于计算机视觉任务。

0

图像去模糊图像质量提升计算机视觉隐式扩散

MoveNet开源项目 – 谷歌下一代姿态估计

MoveNet是一个基于深度学习的高效姿态检测模型，能够在PyTorch环境中实时估计人体姿态，支持多种输入格式，并能在多个设备上运行，包括移动设备。

0

MoveNetPyTorch健身跟踪姿态估计

ARRTIFICIAL官网 – 强大的人工智能数据分析平台

ARRTIFICIAL是一个强大的人工智能平台，利用先进的机器学习和深度学习算法，实现数据分析和预测建模的自动化。用户只需上传数据，选择所需的算法和参数，平台便可自动分析和建模。

0

人工智能数据分析平台异常检测机器学习模式识别

NanoSAM开源项目 – 实时图像分割的高效模型

NanoSAM是一个经过蒸馏的Segment Anything (SAM)模型，能够在NVIDIA TensorRT上实现实时推理，适用于各种图像分割任务。

0

NVIDIA TensorRT实时图像分割机器人视觉模型蒸馏

Large Vision Models-纯视觉大模型，展现可扩展性

第一个无自然语言的纯视觉大模型，证明了纯视觉模型本身也是可扩展的。该模型支持多种数据形式，通过上下文学习来理解并执行下游任务，具有很强的可扩展性。

0

上下文学习可扩展性数据分析与处理纯视觉大模型

Glue Factory开源项目 – CVG的深度学习视觉特征库

Glue Factory是CVG开发的一个库，用于训练和评估深度神经网络，专注于提取和匹配局部视觉特征。

0

模型训练与评估深度学习视觉特征库特征提取与匹配计算机视觉

Stable Diffusion开源项目 – 高质量图像生成模型

Stable Diffusion是一个用于生成高质量图像的深度学习模型，经过1.5版本更新，具有更好的性能和功能。

0

图像风格迁移文本到图像生成深度学习模型高质量图像生成模型

TorchScale开源项目 – 探索AI大模型的基础研究

TorchScale 包含我们在Transformers稳定性（DeepNet）、通用性（Magneto/Foundation Transformers）和效率性（X-MoE）的一系列研究的官方实现。我们希望通过基础本质的研究探索AI（尤其是大模型）的通用结构，并在NLP，CV，Speech和多模态等领域的任务和基础模型中广泛验证，欢迎大家使用、交流、合作开发。

0

AI大模型基础研究NLP应用Transformer模型研究多模态数据处理

Salient Extract开源项目 – 基于yoloV8的显著目标提取

Salient Extract是一个基于yoloV8深度学习模型的显著目标提取工具，能够高效提取图像中的显著特征，支持多种输入图像格式，并能与其他计算机视觉任务结合使用。

0

基于yoloV8的显著目标提取工具实时显著性检测目标检测计算机视觉

Segment-Anything-U-Specify开源项目 – 图像任意类别实例分割

使用sam和clip模型完成图像任意指定类别的实例分割，支持指定多个类别。该项目结合了SAM模型的高效实例分割能力和CLIP模型的类别识别能力，提供了一个用户友好的接口，适合各种计算机视觉应用。

0

CLIP模型SAM模型图像任意类别实例分割用户友好的接口

幻方 AI 模型仓库开源项目 – 多领域高性能AI模型集成

包含了从计算机视觉、自然语言处理到生物计算、气象预测等各个领域的模型，这些模型结合了幻方萤火超算集群的特点，使用并行训练、高效算子、高性能存储等方式，大幅提升原有模型的性能，节省训练时间。