DEIM 是一个先进的训练框架,旨在增强 DETR(Detection Transformer)中的匹配机制,从而实现更快的收敛速度和更高的检测精度。该项目为实时目标检测领域的研究和应用提供了坚实的基础,并已在 CVPR 2025 上发表。DEIM 提供了多种预训练模型,包括 DEIM-D-FINE 和 DEIM-RT-DETRv2,适用于不同的计算资源和性能需求。
Florence-2-large 是微软开发的一个视觉语言模型,基于序列到序列学习范式,支持多种视觉任务。它通过 FLD-5B 数据集训练,包含 126 百万张图像和 54 亿个全面视觉注释,能够处理复杂的视觉数据,如对象位置、遮罩轮廓和属性,并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。
YOLOX-M1-Mac是一款高性能的无锚点YOLO模型,性能超越yolov3~v5,支持MegEngine、ONNX、TensorRT、ncnn和OpenVINO等多种框架,特别针对M1 Mac进行了优化。
Timm是一个开源的计算机视觉库,专注于提供高效且易用的深度学习模型,涵盖了图像分类、目标检测、语义分割等任务,支持多种预训练的模型,广泛应用于各类视觉任务。
gradio_image_annotator 是一个基于 Gradio 的图像标注组件,专门用于在图像上添加和编辑边框,适用于图像目标检测和标注场景。它提供了丰富的功能,帮助用户高效地进行图像标注和处理。
YOLOE是一个实时高效的目标检测与分割模型,支持文本、视觉和无提示三种模式,具有卓越的零样本文本提示性能,训练成本降低3倍,推理速度快,YOLOE-v8-S在LVIS上的AP达到27.9,速度提升1.4倍。
YOLOAir是一个基于PyTorch的YOLO检测算法组合工具箱,支持多种YOLO算法,包括YOLOv5、YOLOv7、Transformer、YOLOX、YOLOR等。该项目提供了改进的骨干网络、头部、损失函数、IoU、NMS等模块,并基于YOLOv5的原始版本进行扩展和优化。其模块化设计便于组合和定制网络结构,适用于目标检测任务的快速部署和测试。
PaddleDetection_YOLOSeries是一个基于PaddleDetection框架的YOLO系列模型库,支持多种YOLO模型,包括PP-YOLOE、YOLOv3、YOLOX、YOLOv5、MT-YOLOv6和YOLOv7。该项目提供了高效的目标检测解决方案,易于集成和扩展,适用于各种应用场景。此外,它还提供了预训练模型,方便用户快速部署和进行模型微调。
FLYCV是PaddlePaddle开发的高性能计算视觉系统,类似OpenCV但更轻量、性能更高。它在ARM架构下进行了大量优化,提供细粒度的编译选项控制,支持自定义命名空间,解决相同依赖库冲突问题,并支持多种主流操作系统,包括Android、ARMLinux、macOS(x86 & arm)、Windows、iOS。
detectron2-ResNeSt是基于Detectron2框架的一个分支,集成了ResNeSt骨干网络。该项目旨在通过引入ResNeSt网络,增强目标检测能力,特别是在复杂场景下的特征提取效果。它不仅支持目标检测和实例分割等下游任务,还允许用户使用ResNeSt骨干网络训练自定义模型,并在标准数据集上进行性能基准测试。
CenterMask2是基于Detectron2框架的实时无锚点实例分割模型,是原始CenterMask的升级版,专注于高质量和高效的物体实例分割。它通过改进的实例分割精度和减少计算开销,适用于多种视觉任务,并支持自定义数据集的训练和推理。
Detectron2是一个开源的PyTorch视觉库,专注于目标检测和实例分割等任务。它在训练速度上较传统方案提升了40%,并在COCO数据集上实现了57.9%的mAP指标。该库支持分布式训练优化、实时推理加速和可扩展架构,适用于多种应用场景。
Model Zoo for MindSpore 是一个为MindSpore深度学习框架提供预训练模型和示例的仓库。它包含了多种深度学习任务的模型,如图像分类、目标检测和自然语言处理等,支持用户快速集成到MindSpore框架中。该仓库定期更新,提供详细的文档和使用示例,帮助用户更好地理解和使用这些模型。
YOLOv5是一个基于深度学习的实时目标检测模型,专注于高效、快速的图像目标检测任务。它广泛应用于监控系统、自动驾驶等领域,能够实时识别并定位图像中的目标,推理速度快,适合实时应用场景。YOLOv5支持检测各种类别的物体,包括行人、车辆等,并且完全开源,支持社区贡献与定制开发。
GeneralistYOLO是一个实时多任务视觉语言模型,能够一站式解决多种视觉任务。该模型在MS COCO数据集上表现出色,目标检测AP达到52.4%,实例分割AP达到43.0%。此外,该模型具有高效的实时性能,在640尺寸下FLOPs仅为122.2G。
YOLOv9 是一种实时对象检测模型,超越了所有基于卷积和Transformer的模型。它引入了可编程梯度信息(PGI)和通用高效层聚合网络(GELAN)来提高准确性。该模型在基于 MS COCO 数据集的目标检测上验证了优异的性能,并且仅使用传统的卷积算子即可实现更好的参数利用率。YOLOv9 适用于从轻型到大型的各种模型,能够从头开始训练的模型比使用大数据集预训练的state-of-the-art模型获得更好的结果。
YOLOv12是一个基于注意力机制的新框架,旨在突破传统CNN架构的局限,提高性能和计算速度。
Salient Extract是一个基于yoloV8深度学习模型的显著目标提取工具,能够高效提取图像中的显著特征,支持多种输入图像格式,并能与其他计算机视觉任务结合使用。
Hiera是一个层次化视觉变换器,专注于视觉任务,优化性能并避免不必要的复杂性。
Residual Attention是一种简单但有效的多标签识别方法,利用残差注意机制,能够在多标签任务中表现出色。
一个将Transformers与YOLO及其他单阶段检测器(SSD)结合的深度学习框架,提供高性能推理和便捷的CLI接口。支持D-FINE等先进模型,具备视频流推理、自动分布式训练等特性。适用于需要transformer增强的目标检测任务,提供Python API和Docker部署支持。
CMT是一个结合卷积神经网络和视觉变换器优势的项目,旨在提升图像分类和目标检测的性能,具有广泛的应用前景。
SPARC是一种用于从图像-文本对中预训练更精细的多模态表示的方法,通过在描述中的每个token上学习图像块的分组来实现。
Computer Vision Recipes 是一个专注于计算机视觉领域的项目,提供了最佳实践、丰富的代码示例和详细的文档支持。它涵盖了多种计算机视觉任务,如图像分类、目标检测等,旨在帮助开发者快速实现和集成计算机视觉解决方案。项目易于上手和扩展,适用于学习、开发、原型设计、教育培训以及现有项目的集成。
GroupMixFormer是一种高效神经网络架构,基于Group-Mix Attention机制,旨在显著提升各种视觉任务的性能,特别是在图像分类、目标检测和语义分割等领域。
Lobe 是一款免费且易于使用的应用程序,用户可以训练自定义机器学习模型并将其融入自己的应用中。它提供了可视化编程界面,支持多种任务,如图像分类、目标检测和数据分类。用户只需下载应用,收集并标记图像或数据,Lobe 会基于标记的示例自动训练模型,用户可以使用摄像头或图像来测试模型,并在改进预测后将其导出到应用中进行部署。