AI图像工具 | 第 14 页

Embedding Propagation开源项目 – 提升小样本分类的泛化能力

Embedding Propagation 是一种旨在为小样本分类创建更平滑流形的方法，通过改进嵌入传播技术来增强模型在有限标注数据下的泛化能力。它适用于多种小样本分类框架，能够有效提升模型在低数据环境下的表现，并为下游任务提供更优质的特征嵌入。

0

小样本分类嵌入传播技术流形学习特征嵌入

blip-caption开源项目 – 图像描述生成工具

blip-caption是一个基于Salesforce BLIP模型的命令行工具，专门用于生成图像描述。它通过命令行界面提供了一种简单且高效的方式来处理图像描述生成任务，支持多种图像格式，并能够快速生成高质量的图像描述。该工具易于集成到各种工作流中，适用于单张图像描述生成、批量处理以及自动化脚本集成等多种场景。

0

BLIP模型命令行工具图像描述生成工具图像数据集标注

PE3R开源项目 – 快速生成交互式3D场景

PE3R（Perception-Efficient 3D Reconstruction）是一个创新项目，能够仅通过2-3张照片生成交互式3D场景。该项目支持基于文本的虚拟世界探索，极大简化了3D重建的流程，适用于多种场景和应用。

0

3D场景生成交互式3D重建开源项目

pytorch-image-models开源项目 – 高效易用的计算机视觉库

Timm是一个开源的计算机视觉库，专注于提供高效且易用的深度学习模型，涵盖了图像分类、目标检测、语义分割等任务，支持多种预训练的模型，广泛应用于各类视觉任务。

0

图像分类深度学习模型目标检测计算机视觉库

pytesseract开源项目 – Python的Tesseract OCR封装

pytesseract是一个Python库，封装了Google的Tesseract OCR引擎，使开发者能够在Python中轻松实现光学字符识别（OCR）功能。它支持多种图像格式，允许配置Tesseract参数以定制OCR过程，并可以批量处理多张图像。此外，pytesseract与Python的PIL/Pillow等图像处理库无缝集成，便于在OCR前对图像进行预处理。

0

Google Tesseract封装OCR工具Python库图像文本提取

Baichuan开源项目 – 多模态AI开发平台

Baichuan是一个开源的多模态AI平台，专为多模态AI开发设计。它提供整合文本、图像等多模态数据的工具，支持高效的模型训练与推理，适用于复杂场景下的智能应用。平台内置多源数据预处理管道，兼容主流深度学习框架，帮助开发者快速构建多模态AI系统。

0

多模态AI开发平台多模态数据预处理开源项目深度学习框架

Image2Paragraph开源项目 – 图像转独特段落

Image2Paragraph是一个结合了ChatGPT、BLIP2、OFA、GRIT、Segment Anything和ControlNet技术的项目，旨在将图像转化为独特的段落描述。通过多种先进技术的集成，该项目能够从图像中提取丰富的特征，并生成详细且独特的文本描述，适用于多种AI应用和计算机视觉任务。

0

AI图像描述生成图像转文本开源项目计算机视觉

M2RAG开源项目 – 提升多模态RAG模型性能

M2RAG通过多模态检索增强和指令调优来提升多模态RAG模型的性能，特别是在处理图像和文本结合的多模态数据时，有效减少幻觉，生成更准确的回答。项目通过MM-RAIT训练方法，优化模型在执行检索、理解和回答等RAG流程中各个阶段的表现，显著提高了模型的准确性。经过训练后，MiniCPM-V和Qwen2-VL模型性能比普通RAG方法平均提高了27%和34%。

0

图像和文本处理多模态RAG模型指令调优检索增强

Nanodet-YoloV8-Pose-MeterReader开源项目 – 高精度仪表读数解决方案

该项目结合了Nanodet和YoloV8 Pose模型，利用OpenVINO在Intel硬件上实现优化的高性能仪表和计量器读数。项目包含PaddlePaddle模型文件（model.pdmodel和model.pdiparams），专为在各种环境中读取仪表和计量器而设计，提供高效可靠的仪表读数解决方案。

0

Intel硬件OpenVINO优化PaddlePaddle模型高精度仪表读数

ClothingTransfer-NCNN开源项目 – 基于ncnn的虚拟试衣与服装迁移

ClothingTransfer-NCNN 是一个基于ncnn框架的虚拟试衣与服装迁移项目，集成了CT-Net、OpenPose、LIP_JPPNet和DensePose等技术。CT-Net用于服装迁移，OpenPose用于人体姿态估计，LIP_JPPNet用于人体解析，DensePose用于详细的人体表面映射。通过ncnn优化，实现了高效的推理，适用于电子商务、时尚设计、虚拟现实和增强现实等多个领域。

0

ncnn框架人体姿态估计人体解析服装迁移

brain-tumor-mri-dataset开源项目 – 脑部肿瘤MRI数据集工具

该项目提供了一套用于下载和加载脑部肿瘤MRI数据集的Python工具，包含2D切片、肿瘤掩码和肿瘤分类数据，适用于医学影像分析、机器学习模型训练与测试、脑部肿瘤检测算法的研究与开发、医学影像数据集的预处理以及教育和学术研究。

0

医学影像分析医学影像数据集预处理机器学习模型训练脑部肿瘤MRI数据集工具

Paints-UNDO开源项目 – 伪造与逆向绘画过程的AI工具

Paints-UNDO 是一个多功能的AI项目，能够伪造从草稿到成图的完整延时绘画过程，并以视频格式输出。同时，它也能逆向工作，分解图像并展示艺术家可能采取的创作步骤。该项目基于videocrafter2生成视频模型的微调，支持多种风格如二次元、写实风格以及真实照片的伪造和分解。

0

AI绘画工具伪造延时绘画绘画技巧模拟艺术创作演示

Text-Guided-Image-Colorization开源项目 – 文本引导的图像上色工具

Text-Guided-Image-Colorization 是一个基于 Stable Diffusion 和 BLIP 模型的交互式图像上色工具，允许用户为图像中的不同对象指定颜色，使上色过程更加个性化和富有创意。该工具结合了高质量的图像生成技术和文本引导功能，提供了一个用户友好的界面，使用户能够轻松地实现个性化的图像上色。

0

BLIP模型Stable Diffusion图像上色工具文本引导图像上色

gradio_image_annotator开源项目 – 图像标注与编辑工具

gradio_image_annotator 是一个基于 Gradio 的图像标注组件，专门用于在图像上添加和编辑边框，适用于图像目标检测和标注场景。它提供了丰富的功能，帮助用户高效地进行图像标注和处理。

0

图像标注工具图像编辑工具目标检测自定义图像标注

ViT Prisma开源项目 – Vision Transformer机制解释库

ViT Prisma是一个专门用于Vision Transformers（ViTs）的机制解释库，旨在帮助用户深入理解ViT模型的内部工作机制。它提供了一系列工具和方法，用于分析Transformer层和注意力机制，支持模型决策的可视化，并促进视觉任务中特征重要性的探索。

0

Vision Transformer机制解释库模型决策可视化特征重要性探索

MidJourney-Styles-and-Keywords-Reference开源项目 – MidJourney AI 样式与关键字参考

该项目是一个专为 MidJourney AI 设计的样式和关键字参考资源，旨在帮助用户更好地使用该 AI 工具生成高质量图像。它不仅提供了丰富的样式和关键字参考，还包括页面显示分辨率比较、图像权重等实用信息，帮助用户优化生成结果。

0

MidJourney AI图像优化图像生成提示词参考

wasmVision开源项目 – 高性能WebAssembly视觉引擎

wasmVision是一个基于WebAssembly的计算机视觉处理引擎，提供高性能的视觉处理能力。它能够捕获摄像头、视频文件或流媒体的画面，并通过WebAssembly进行处理后输出。该项目支持使用Go、Rust、C语言开发处理器模块，并内置了多个现成的处理器，如人脸检测、图像模糊、神经风格迁移等，适用于多种视觉处理场景。

0

WebAssembly视觉引擎人脸检测图像模糊神经风格迁移

HZPROC开源项目 – Torch数据增强工具箱

HZPROC是一个专为Torch设计的数据增强工具箱，支持仿射变换等多种数据增强技术。它易于集成到现有的Torch流程中，性能高效且优化，能够显著提升模型的泛化能力。

0

Torch数据增强工具箱仿射变换图像数据集增强模型泛化能力提升

sd-webui-stablesr开源项目 – 超分辨率放大工具

StableSR 是一个创新的超分辨率放大项目，专注于为模糊画面生成精致细节。该项目已集成到web-ui中，使用方便，且对低显存进行了优化，支持在小于12GB显存的环境中进行4K图像放大。官方演示效果令人惊叹，对模糊照片的修复效果几乎完美。

0

4K图像放大web-ui集成低显存优化模糊照片修复

PhotoEva官网 – AI智能照片编辑应用

PhotoEva是一款无需注册即可使用的AI照片编辑应用，帮助用户轻松修复、增强和转换照片。通过先进的AI技术，用户可以去除背景、为黑白照片上色、创建表情符号头像等。应用操作简单，只需从App Store下载，上传照片后即可选择各种编辑功能进行即时处理。

0

AI照片编辑照片修复背景去除表情符号头像

tlnmf开源项目 – 正交流形上的拟牛顿NMF算法

tlnmf是一个在正交流形上实现拟牛顿算法的非负矩阵分解（NMF）工具，结合了变换学习以提升分解效果。该项目专为信号处理和数据分析领域设计，适用于多种矩阵分解任务。

0

主题建模信号处理数据分析源分离

GlowPro官网 – AI护肤专家

GlowPro是一款个人AI护肤专家应用，提供专业的皮肤分析和定制护肤建议。用户可以通过扫描皮肤，获得个性化的护理建议，并随着时间的推移跟踪皮肤进展，从而高效地提升护肤体验。该应用适用于iOS和Android设备，旨在通过AI技术帮助用户轻松实现美容目标。

0

AI皮肤分析个性化护肤建议皮肤进展跟踪

Intangible.ai官网 – 基于AI的3D内容创作工具

Intangible.ai 是一个基于浏览器的工具，旨在帮助团队轻松创建、协作和导出3D内容。它简化了电影场景、营销视觉和游戏世界的制作过程，且无需编程技能。用户可以通过直观的拖放功能和AI辅助快速上手。

0

AI辅助3D内容创作团队协作工具浏览器3D设计工具

Luma AI开源项目 – 快速生成高质量3D场景

Luma AI是一款基于神经辐射场（NeRF）技术的3D生成模型，能够从2D图像快速重建高质量的3D场景。该模型利用深度学习技术，对物体的光照、纹理和结构进行精准建模，实现逼真的3D视觉效果。广泛应用于游戏开发、虚拟现实（VR）、电商产品展示等领域。

0

3D场景生成游戏开发电商展示神经辐射场技术

YOLOE开源项目 – 高效目标检测与分割模型

YOLOE是一个实时高效的目标检测与分割模型，支持文本、视觉和无提示三种模式，具有卓越的零样本文本提示性能，训练成本降低3倍，推理速度快，YOLOE-v8-S在LVIS上的AP达到27.9，速度提升1.4倍。

0

AI模型训练图像分割实时推理目标检测

webcam-pix2pix-tensorflow开源项目 – 实时摄像头图像转换

该项目是基于TensorFlow框架实现的摄像头pix2pix图图转换工具，包含源代码和预训练模型。它支持实时摄像头输入，利用pix2pix模型进行图像转换，提供预训练模型以便快速使用，同时也支持自定义训练和模型优化。

0

pix2pix模型TensorFlow框架实时图像转换摄像头图像处理

SMPLX开源项目 – 高精度3D人体建模工具

SMPLX是一款基于深度学习的3D人体建模工具，能够生成高精度、可动画化的3D人物模型，适用于游戏开发、虚拟现实、动画制作等领域。它通过少量参数生成逼真的人体模型，支持精细的骨骼结构，具备面部表情和手部动作建模能力，大幅降低建模成本，提高制作效率。

0

3D人体建模动画制作深度学习游戏开发

YOLOv4 – ANPR/ALPR开源项目 – 基于YOLOv4的车牌识别系统

YOLOv4 - ANPR/ALPR是一个基于YOLOv4、Tesseract和PaddleOCR的车牌识别项目，特别针对巴西车牌进行了优化。该项目结合了先进的深度学习模型和OCR技术，能够高效地检测和识别车牌文本，适用于多种场景。

0

OCR技术PaddleOCRTesseractYOLOv4

OpenCV开源项目 – 开源计算机视觉库

OpenCV是一个开源的计算机视觉和机器学习软件库，提供了丰富的图像处理和计算机视觉算法。它支持多种编程语言和跨平台运行，适用于各类AI应用，包括图像处理、物体识别、视频分析等。OpenCV还针对不同硬件架构进行了优化，并支持深度学习模块，可加速矩阵乘法等操作。

0

图像处理开源项目深度学习计算机视觉库

mast3r-slam开源项目 – 实时密集SLAM与3D重建工具

mast3r-slam是一个基于Rerun的MASt3R-SLAM实现，旨在简化实时密集SLAM与3D重建的过程。通过使用Rerun进行可视化，用户可以直观地查看SLAM结果。项目通过Pixi简化了安装过程，用户可以在10分钟内完成复杂依赖的安装。此外，mast3r-slam支持NVIDIA GPU加速，显著提升了性能。

0

3D重建工具GPU加速实时密集SLAM开源项目