ModelScope是一个基于'模型即服务'(MaaS)理念的开源平台,整合了AI社区最先进的机器学习模型,覆盖计算机视觉(CV)、自然语言处理(NLP)、语音、跨模态和科学计算等多个领域。它提供统一的接口和实现,支持模型的推理、训练和评估,简化了模型在现实世界应用中的使用过程。平台公开了超过700个模型,支持从文本生成到图像处理等多种场景,并可与Hugging Face等社区集成扩展资源。
Agentic Object Detection 是 LandingAI 开发的计算机视觉项目,通过文本提示实现人类级别的目标检测精度,无需定制训练。它利用推理驱动的 AI 分析物体的独特属性(如颜色、形状、纹理)及物体间关系,支持零样本学习。在内部基准测试中,其 F1 分数达 79.7%,优于 Microsoft Florence-2、Google OWLv2 等模型。项目集成于 LandingLens 平台,适用于农业、制造业、医疗等多个行业。
Mixture-of-Mamba 是一种基于状态空间模型(SSMs)的新型架构,专门设计用于通过引入模态感知稀疏性来改进多模态模型。它能够高效处理文本、图像和语音等不同类型的数据,通过为每种数据类型定制参数,显著提高效率和性能。该项目在减少计算成本的同时,保持了或提升了模型的表现,特别适用于多模态预训练研究。
colmap_cameras_pytorch 是一个用 PyTorch 实现的工具,专注于 COLMAP 相机模型。它支持自动微分,全面支持 COLMAP 的所有相机模型,并提供实用工具如相机模型重映射和根求解器。这款工具主要面向计算机视觉和深度学习领域的研发人员,特别适用于结构从运动(SfM)和多视图立体视觉(MVS)任务。
Depth Anything 是一个高度实用的单目深度估计解决方案,旨在构建一个简单而强大的基础模型,能够处理任何图像并适应任何场景。该模型使用约6200万张无标签图像进行训练,涵盖多个领域和场景,展示了出色的零样本泛化能力,并在NYUv2和KITTI数据集上创下了新的最佳性能。
deepcharacters是一个基于TensorFlow的开源项目,旨在实现从稀疏RGB摄像头实时生成角色的自由视角视频。该项目支持高精度动态建模和4K分辨率渲染,仅需4个摄像头视角和3D骨骼姿势即可生成逼真的角色视频。项目代码结构清晰,包含深度学习框架、自定义TensorFlow操作符和CUDA渲染器,适用于计算机视觉和AI领域的研究与开发。
Infinigen 是一款开创性的开源工具,利用程序化生成技术生成逼真无限的3D世界。它结合了计算机视觉、计算机图形和生成式人工智能的先进技术,创造出身临其境的真实环境。项目支持生成室内场景和自然场景,并提供丰富的文档和教程,帮助用户快速上手。
Ultralytics YOLO 是一款基于 YOLO 系列的尖端对象检测和追踪模型,集成了计算机视觉和深度学习的最新进展。它继承了前代 YOLO 版本的成功,并引入了新的架构和训练流程,提升了实时推理速度、准确性和泛化能力。该模型适用于广泛的任务,包括对象检测、实例分割、图像分类和姿态估计。YOLO11 经过 COCO、ImageNet 和 DOTAv1 等大型数据集的训练,提供了卓越的准确度和速度。
PyTorch Image Models (timm) 是一个 PyTorch 图像模型集合库,旨在为研究人员和开发者提供丰富的、预训练的图像编码器和骨干网络,方便快速构建和实验各种计算机视觉应用。timm 库不仅提供了模型架构,还包含了训练和验证的技巧,支持多种优化器,并提供了灵活的配置接口。它包含了广泛的模型,如ResNet、EfficientNet、ViT、MobileNet等,这些模型在ImageNet数据集上接受了预训练,可以针对特定的应用程序进行微调。
该项目提供了 OpenAI API 的 OpenAPI 规范,帮助开发者理解并利用 OpenAI API。OpenAPI 规范是一种用于描述 RESTful API 的行业标准,使用 YAML 或 JSON 格式编写,定义了 API 的架构、请求和响应模型,以及其他元数据。该规范基于 OpenAPI 3.0 标准,并遵循 RESTful 架构,提供了一致而易于理解的 API 定义。开发人员可以使用此规范生成各种编程语言的客户端,自动化工具可以使用此规范来验证请求和响应,确保与 API 的兼容性。
NVIDIA NeMo是一个可扩展的云原生生成式AI框架,专为研究人员和PyTorch开发者设计,支持大语言模型(LLM)、多模态模型(MM)、自动语音识别(ASR)、文本转语音(TTS)和计算机视觉(CV)等领域。它旨在帮助用户高效地创建、定制和部署新一代AI模型,利用现有的代码和预训练模型检查点。NeMo基于Python配置,采用模块化抽象,支持在成千上万个GPU上进行大规模实验。
opencv_contrib是OpenCV的额外模块库,包含了许多未包含在OpenCV主仓库中的功能和算法。它提供了大量额外的图像处理和计算机视觉算法,支持深度学习模型的应用和集成,并包含了许多实验性和前沿的计算机视觉技术。此外,opencv_contrib还提供了丰富的工具和插件,进一步扩展了OpenCV的功能。
utils3d 是一个专为计算机视觉和图形研究人员设计的3D Python工具包,支持OpenCV与OpenGL坐标系转换、轻松光栅化处理、网格处理工具等功能,旨在帮助研究人员以最少的努力实现光栅化处理。
Image2Paragraph是一个结合了ChatGPT、BLIP2、OFA、GRIT、Segment Anything和ControlNet技术的项目,旨在将图像转化为独特的段落描述。通过多种先进技术的集成,该项目能够从图像中提取丰富的特征,并生成详细且独特的文本描述,适用于多种AI应用和计算机视觉任务。
YOLOE是一个实时高效的目标检测与分割模型,支持文本、视觉和无提示三种模式,具有卓越的零样本文本提示性能,训练成本降低3倍,推理速度快,YOLOE-v8-S在LVIS上的AP达到27.9,速度提升1.4倍。
OpenVINO深度学习部署工具集,支持Open Model Zoo预训练模型以及100多种流行格式的开源和公共模型,如Caffe, Tensorflow, MXNet和ONNX。该工具集提供高效的深度学习模型部署工具,优化模型推理性能,广泛应用于计算机视觉、自然语言处理等领域。
该项目由NVIDIA AI IOT开发,专注于优化YOLOv5的GPU性能,提升实时目标检测任务的速度和效率。
OpenCV Zoo是由OpenCV提供的预训练深度学习模型和算法集合,适用于各种计算机视觉任务。该项目包含了多种预训练模型,支持多种深度学习框架,如TensorFlow、PyTorch和ONNX,并提供了易于使用的API,方便将模型集成到应用中。项目开源且社区驱动,定期更新新模型和改进。
DINOv2编码器微调助手利用低秩适应(LoRA)技术对视觉任务进行编码器权重微调,简化新任务适配过程,显著提高模型在图像分割等视觉任务上的表现。该项目支持DINOv2编码器的微调,优化视觉任务的性能,适用于计算机视觉领域的各种任务。
BANANAS 是一种新的神经网络架构搜索方法 (NAS),旨在优化神经网络架构的自动搜索过程。它利用贝叶斯优化进行架构搜索,支持多种神经网络架构,并能够自动化地选择与优化架构。BANANAS 具有强可扩展性,适用于大规模数据集,能够显著提高神经网络架构搜索的效率和效果。
Fast3R是一个旨在通过单次前向处理实现1000+张图像的3D重建的项目,使得大规模3D重建变得轻松高效。
FastAI是一个深度学习库,专注于简化机器学习模型的训练过程,广泛应用于计算机视觉、自然语言处理等领域。它提供了简单易用的API,降低学习门槛,内置多种优化算法,帮助加速训练过程,支持计算机视觉、NLP等任务,功能全面。FastAI完全开源,支持社区贡献和个性化定制。
Semaphore 是一个基于计算机视觉的体感控制项目,允许用户通过身体动作进行打字、游戏控制和其他交互操作。它支持全身手势识别,提供实时反馈,并允许自定义手势映射。该项目开源且易于扩展,适用于开发体感游戏、教学工具、创意打字体验以及特殊环境下的输入需求。
multitrident 结合了 TridentNet 和 RefineDet 技术,能够在一次前向传播中同时检测不同尺度的目标。它通过高效的单一前向传播实现多尺度目标检测,适用于各种计算机视觉任务,并持续更新和改进。
MindCV是一个基于MindSpore的视觉模型和算法工具箱,致力于计算机视觉相关技术的研究与开发。它提供了全面的视觉模型集合,并与MindSpore框架深度集成,支持多种计算机视觉算法。该项目是开源的,社区驱动,既适用于研究,也适用于实际应用。
SLAB是一个高效的Transformer模型,采用简化的线性注意力机制和渐进重参数化批归一化技术,旨在提升模型的计算效率和性能。
nano-simsiam是一个极简的PyTorch实现的SimSiam自监督学习框架,仅用400行代码实现,基于ResNet50在ImageNet上达到良好性能。它支持分布式训练、实时KNN评估和自动混合精度训练,非常适合研究原型开发,代码简洁易于理解和修改。
YOLO-NAS是一个全新的目标检测模型,其在性能上超越了之前的目标检测模型,尤其适用于小型设备。该模型完全开源,具有高效的实时处理能力,特别适合在边缘设备上应用。通过利用流行的注意机制,YOLO-NAS显著提高了小物体检测的准确性和物体定位的精度,使其成为计算机视觉任务中的理想选择。
YOLOv12是一个基于注意力机制的新框架,旨在突破传统CNN架构的局限,提高性能和计算速度。
CIPS-3D是一个基于条件独立像素合成的3D感知生成器,能够生成高质量的3D图像,利用生成对抗网络(GAN)技术,推动计算机视觉领域的发展。