pytorch-openpose是一个基于PyTorch的OpenPose实现,支持手部和身体的姿态估计。该项目提供了实时姿态估计功能,适用于视频中的人体姿态分析、手势识别等应用。由于其基于PyTorch,具有灵活性和高性能,并且是开源项目,社区驱动开发。
DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型,旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展,特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。
Subjects200K 是 OmniControl 项目引入的大规模数据集,包含 20 万对图像。每个样本包括主体描述、左右 512x512 图像、对应的文本描述以及合并的 1024x512 图像。该数据集旨在提供一致的图像主体和变化的场景背景,用于训练和评估图像生成模型,增强场景理解和背景变化能力,以及开发图像文本对齐算法等研究。
captcha-break是一个基于opencv2、tesseract-ocr和机器学习算法的验证码破解工具。它通过图像处理和光学字符识别技术,结合机器学习算法提高准确性,旨在破解各种类型的验证码挑战。该项目是开源的,并在GitHub上提供,鼓励社区贡献。
NICAR 2025前沿网页抓取技术研讨会,涵盖视频抓取、图像模型应用、现代浏览器自动化以及GitHub Actions和Codespaces的使用。
cog-consistent-character是一个基于AI的开源模型,能够在保持角色一致性的同时,增加多样性。它结合了InstantID、IPAdapter、Controlnet和FaceDetailer等多种技术,全部由SDXL Lightning驱动。该工具支持在ComfyUI中直接使用工作流,简化角色图像的创作过程,适用于角色设计、动画制作、游戏开发等多种场景。
Aperture 是一个专门用于可视化 Stable Diffusion 中注意力层的工具,特别设计用于可视化 UNet 中每个词在每一层的注意力分布。它支持 Stable Diffusion 2.1 和 Flux Dev 模型,并提供了完整的前端和后端代码,便于用户进行定制和进一步开发。
AI Human Generator 是一款在线工具,利用人工智能技术生成不存在的超逼真人像照片。用户可以调整人物的服装和身体特征,工具提供多种姿势和服装选项,适用于各种应用场景。
YOLOAir是一个基于PyTorch的YOLO检测算法组合工具箱,支持多种YOLO算法,包括YOLOv5、YOLOv7、Transformer、YOLOX、YOLOR等。该项目提供了改进的骨干网络、头部、损失函数、IoU、NMS等模块,并基于YOLOv5的原始版本进行扩展和优化。其模块化设计便于组合和定制网络结构,适用于目标检测任务的快速部署和测试。
BLIP (Bootstrapped Language-Image Pretraining) 是一款强大的图像-文本理解模型,能够根据图片内容自动生成高质量的描述文本。它结合视觉和语言模型,支持图像理解、文本生成、跨模态检索等功能,适用于图片字幕生成、视觉问答、智能搜索等场景。
UnifiedReward是首个统一的多模态理解和生成评估奖励模型,支持成对排名和点式评分,旨在助力视觉模型的偏好对齐。该项目首次实现了图像、视频生成与理解的全面覆盖,提供了完整的训练代码和数据集,并在多个基准测试中表现卓越。
astroNN是一个基于TensorFlow构建的深度学习库,专门为天文学家设计。它提供了丰富的预训练模型,适用于各种天文学任务,并支持高性能计算。astroNN还支持天文学数据的预处理和增强,易于集成到现有的天文学研究流程中,帮助天文学家更高效地处理和分析复杂的天文数据。
OpenPose Training是由CMU-Perceptual-Computing-Lab开发的训练代码,旨在简化OpenPose框架的训练过程。该项目支持从零开始训练OpenPose模型,提供数据准备和增强工具,并包含详细的文档和训练流程示例。它兼容多种人体姿态估计数据集,允许用户灵活调整模型架构和超参数。
TokenOCR是一款面向文档理解的文本图像基础模型,旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对,提出首个token级别的文本图像基础模型,支持多种下游任务。基于TokenOCR构建的TokenVL模型,在文档视觉问答任务中表现卓越。
Florence-VL是微软开源的多模态模型,具备强大的图像理解能力,能够从不同角度深入理解图片内容并给出准确回复。其核心在于升级的视觉编码器和深度-广度融合(DBFusion)机制,支持多层次、多方面的视觉特征捕获和融合,超越了传统的CLIP式视觉Transformer模型。
Label Studio是一款功能强大的开源数据标注工具,支持文本、图像、音频、视频等多种数据类型。它结合主动学习策略,能够高效辅助人工完成标注任务,并提供可视化界面,易于使用。此外,Label Studio支持团队协作,提高大规模数据集的标注速度,并可与深度学习模型集成,实现智能标注和自动化数据处理。
face_verification_experiment 是一个基于轻量级卷积神经网络(CNN)的深度学习项目,专为高效的人脸表示和验证任务设计。该项目通过优化网络架构,在保持高精度的同时显著降低了计算复杂度,适用于实时应用场景。其核心目标是为安全系统、移动应用和监控系统等提供准确且高效的人脸识别解决方案。
LayoutLMv3是一款专门用于文档解析的AI模型,能够理解PDF、扫描件和复杂排版的文本结构。它结合视觉、文本和布局信息,能够高效解析表格、图表、公式等非结构化数据,适用于OCR增强、自动文档分类和信息提取等任务。
ncnn-android-depth_anything是一个基于ncnn库和OpenCV的Android应用示例,旨在利用大规模未标记数据进行深度感知。该项目展示了如何释放深度学习的潜力,并支持动态输入形状的模型,适用于各种深度感知场景。
PlateRecognition是一个高精度车牌识别系统,支持12种车牌类型的检测与识别。该系统集成了yolov5、yolov7、yolov8等深度学习模型,识别准确率高达99.5%,适用于多种场景下的车牌识别需求。
ComfyUI_pose_inter是一个基于ComfyUI ControlNet的工具,专门用于在两张人物姿势图片之间生成过渡帧。它利用OpenPose或DWPose预处理器进行姿势检测和插值,从而生成流畅的姿势转换效果,适用于动画制作、姿势转换和舞蹈动作生成等多种场景。
PaddleDetection_YOLOSeries是一个基于PaddleDetection框架的YOLO系列模型库,支持多种YOLO模型,包括PP-YOLOE、YOLOv3、YOLOX、YOLOv5、MT-YOLOv6和YOLOv7。该项目提供了高效的目标检测解决方案,易于集成和扩展,适用于各种应用场景。此外,它还提供了预训练模型,方便用户快速部署和进行模型微调。
Artinails是一款创新的AI美甲设计服务,通过先进的AI技术为用户提供个性化的美甲设计灵感。无论是美甲师还是美甲爱好者,Artinails都能根据用户的独特愿景,生成从可爱、经典到优雅、季节主题的多样化美甲设计,确保每位用户都能找到完美表达自己风格的设计。
Oscar(Object-Semantics Aligned Pretraining)是一款能够根据图像内容生成精准文本描述的AI模型。它通过学习图像和文本之间的语义关系,能够理解图片中的对象、场景以及它们之间的关系,从而生成详细且符合语境的文字描述。Oscar不仅能进行图像描述,还可以用于视觉问答和跨模态检索,是跨领域图像与文本理解的有力工具。
Pose Depot是一个专为ControlNet设计的高质量姿势图像集合,提供多角度的深度图、Canny边缘图、法线图和OpenPose骨架图。该项目旨在为Stable Diffusion等文生图模型提供更精确的姿势控制,并包含一个网页浏览界面,方便用户筛选和预览所需姿势图像。
PaperVision是一款用户友好的节点编辑器,灵感来源于Blender和Unreal Engine的蓝图系统,允许用户轻松创建自定义的OpenCV算法。通过直观的图形界面和实时预览功能,用户可以快速开发和实验图像处理算法,是学习和原型设计计算机视觉应用的理想工具。
该项目由NVIDIA AI IOT开发,专注于优化YOLOv5的GPU性能,提升实时目标检测任务的速度和效率。
labelGo是一款基于labelImg及YOLOV5的图形化半自动标注工具,旨在通过集成YOLOV5模型,提供高效、便捷的图像标注解决方案。该工具支持多种图像格式的标注,自动生成兼容主流深度学习框架的标注文件,显著减少人工标注的工作量。
stable_diffusion.openvino 是一个专为英特尔CPU优化的项目,旨在高效运行Stable Diffusion模型。通过使用OpenVINO工具包,该项目能够在英特尔硬件上实现高效的推理,支持高质量的图像生成。其轻量级设计和易于集成的特性,使得开发者能够轻松将其应用到各种基于英特尔CPU的应用程序中。
ControlNet是一款基于Stable Diffusion的AI图像生成模型,能够通过草图、深度图、姿态等多种方式精准控制AI绘画的细节。它提供了更高的可控性,使用户在保持创意自由度的同时,能够精准调整构图、光影和风格。ControlNet适用于概念设计、动画制作、虚拟形象创建等多种场景,是AI绘画领域的强大工具。