AI图像工具 | 第 22 页

Cogview3开源项目 – 更精细、更快速的文本生成图像

Cogview3 是一种通过中继扩散技术实现更精细、更快速的文本生成图像的项目。它利用先进的中继扩散技术，能够在短时间内生成高质量的图像，满足从艺术创作到实际应用的多方面需求。

0

Cogview3中继扩散技术文本生成图像艺术创作

Blind2Unblind开源项目 – 自监督图像去噪

Blind2Unblind 是一种自监督图像去噪方法，特别针对可见盲点进行处理。它能够在没有干净图像作为监督信号的情况下，通过自监督学习实现图像去噪，尤其擅长处理图像中的盲点问题。

0

图像去噪盲点修复自监督图像去噪

ConsiStory开源项目 – 无训练框架实现一致性图像生成

ConsiStory是英伟达研发的无训练框架，专为一致性图像生成而设计，支持SDXL和Stable Diffusion 3等主流架构。该框架通过先进的注意力机制和特征共享技术，确保在多人场景中主体一致性保持率高达98%，并在性能上较ControlNet提升23%。此外，ConsiStory还提供了布局多样性控制功能，允许随机生成背景的同时保持主体不变，同时兼容多种文生图模型，适用于广泛的图像生成任务。

0

一致性图像生成多人场景图像生成布局多样性控制开源项目

KV-Edit开源项目 – 无需训练的图像编辑工具

KV-Edit是一款无需训练的精准图像编辑工具，能够在编辑过程中保持背景的一致性，确保编辑前后无差异。它支持多种硬件配置，适应性强，适用于各种图像处理场景。

0

多硬件支持图像编辑无需训练的图像编辑工具背景一致性图像处理

neosr开源项目 – 开源超分辨率模型训练框架

neosr 是一个开源的超分辨率模型训练框架，旨在简化图像恢复过程。它支持多种架构和数据集，提供高效的训练能力，适用于各种图像恢复任务。

0

低GPU需求图像恢复开源超分辨率模型训练框架高效训练

LLaMA-Mesh官网 – 对话式3D模型生成与修改

LLaMA-Mesh是一个生成3D模型的大模型，支持通过对话方式生成和修改3D模型。它能够理解和解释3D模型的结构和特征，为用户提供直观的3D模型交互体验。该项目结合了自然语言处理和3D建模技术，使得用户可以通过简单的对话指令来创建和编辑复杂的3D模型。

0

3D模型交互体验3D模型修改对话式3D模型生成自然语言处理与3D建模结合

AniLines-Anime-Line-Extractor开源项目 – 动漫线稿提取工具

AniLines-Anime-Line-Extractor是一款专门用于从动漫图片和视频中提取清晰线稿的工具。它提供了两种处理模式，包括基础模式和细节模式，后者能够提取更多背景和边缘线条。此外，该工具还支持视频处理，可以直接生成线稿视频，并支持二值化输出，满足动画制作的需求。

0

AI辅助绘画创作动漫线稿提取工具视频线稿生成

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling – 非刚性手模型

该项目提供了一个具有骨骼和肌肉的非刚性手模型，能够进行生物力学仿真和实时动画，适用于动画和游戏开发。

0

3D感知图像生成卷积神经网络优化开词汇实例分割文本到图像合成

SmolVLM2官网 – 轻量级多功能视觉模型

SmolVLM2 是一个非常小的视觉模型，提供 256M、500M、2.2B 三个版本，能够识别物体、回答问题和对视频做总结。该模型设计轻巧，适用于移动设备，如 iPhone，能够高效执行多种视觉任务。

0

物体识别移动设备应用视频总结轻量级视觉模型

DiffBFR官网 – 基于扩散模型的高效人脸修复

DiffBFR是由美图与国科大联合提出的一种人脸修复方法，专注于从低质量的人脸图像中恢复高质量的人脸图像，特别适用于盲人脸恢复（Blind Face Restoration, BFR）任务。该方法基于扩散概率模型（Diffusion Probabilistic Models, DPM），能够较好地拟合长尾分布，并通过两个核心模块——身份恢复模块和纹理增强模块，分别实现逼真度的还原和真实细节的增强。

0

基于扩散模型的人脸修复盲人脸恢复高质量人脸图像恢复

Direct3D开源项目 – 单图生成高质量3D模型

Direct3D 是一个能够将2D图像直接转化为高质量3D模型的项目。其核心价值在于无需复杂的优化或多视图扩散模型，仅需单张图片即可生成高精度的3D形状。该项目通过高效编码高分辨率3D形状，并采用创新的半连续表面采样策略，直接监督几何形状的生成。预训练模型在生成质量和泛化能力方面表现卓越，使其成为3D建模和图像生成领域的创新工具。

0

2D转3D模型创新图像生成工具单图生成3D模型高质量3D建模

ComfyUI-WanVideoWrapper开源项目 – 本地运行通义万相视频模型的ComfyUI节点

ComfyUI-WanVideoWrapper是一个专为在本地运行通义万相视频模型而设计的ComfyUI节点。该项目允许用户在本地环境中测试和运行通义万相视频模型，并支持多种模型版本。未来，ComfyUI官方预计会推出量化模型，进一步提升本地运行效率。

0

AI视频生成工具ComfyUI适配工具大规模视频处理视频编辑工具

PaliGemma 2官网 – Google发布的增强视觉模型

PaliGemma 2是Google发布的新一代视觉模型，主要在OCR、图像分割和问题回答等方面进行了显著增强。该模型能够更准确地识别图像中的文字，更精细地分割图像中的对象，并更智能地回答与图像内容相关的问题。

0

OCR图像分割增强视觉模型问题回答

YOLOExplorer开源项目 – 快速处理计算机视觉数据集

YOLOExplorer是一个用于快速迭代和处理计算机视觉数据集的工具，支持使用简单的API进行SQL筛选、向量语义搜索以及与Pandas的本地接口等功能，帮助用户高效管理和分析视觉数据。

0

Pandas集成SQL筛选YOLOExplorer向量语义搜索

Diffuse to Choose开源项目 – 高效图像修复与虚拟试穿

Diffuse to Choose是一种基于扩散模型的图像条件修复技术，专为虚拟试穿场景设计，能够在快速推理的同时保持高保真细节，并确保语义操作的准确性。该模型通过将参考图像的细粒度特征直接合并到主扩散模型的潜在特征图中，并使用感知损失进一步保留参考项的细节，从而在图像修复和增强方面表现出色。

0

图像增强实时图像处理扩散模型虚拟试穿

YOLOv12开源项目 – 高效精准的目标检测模型

YOLOv12是YOLO系列的最新版本，专注于实时目标检测和特定物体的跟踪。相比于YOLOv11，YOLOv12在延迟和准确性上都有1-2%的提升，采用强大的注意力机制，显著提升了性能。该模型在T4 GPU上仅需1.64ms完成推理，mAP高达40.6%，超越了同级别模型。YOLOv12广泛应用于实时监控、自动驾驶、工业自动化等领域，支持在各种设备上进行实时推理。

0

YOLOv12开源项目物体检测物体跟踪

ChatWise开源项目 – 超快AI聊天机器人加速器

ChatWise是一款为任何大型语言模型（LLM）提供加速的AI聊天机器人工具。它能够完全离线运行（除需外部API的LLM外），支持多模态输入，包括文本、PDF、音频和图像，并提供了文本转语音功能，支持OpenAI和ElevenLabs。

0

AI聊天机器人多模态输入文本转语音离线运行

Tutorial on Diffusion Models for Imaging and Vision – 扩散模型图像视觉教程

由普渡大学Stanley H. Chan教授发布的扩散模型在图像和视觉领域的教程，详细讨论了扩散模型的基本思想，适合有意从事扩散模型研究或应用的本科生和研究生。教程内容涵盖了扩散模型的基础概念、生成工具在图像和视频生成中的应用，以及相关的学习资源。

0

图像生成工具扩散模型教程研究资源

R1-Onevision官网 – 基于Qwen-VL的视觉推理模型

R1-Onevision是一个基于Qwen-VL架构的视觉模型，具有强大的推理能力，模型大小为7B。它能够处理复杂的视觉推理任务，适用于图像理解和分析，同时支持多模态学习任务。

0

Qwen-VL架构多模态学习视觉推理模型

Phi-4 多模态模型官网 – 微软发布的多模态智能模型

微软发布的 Phi-4 多模态模型，具备图转文、图转声音、声音转文的能力，并有一定的推理能力。该模型适用于嵌入式设备或特殊领域的移动设备，能够在多种场景下实现多模态数据的转换和处理。

0

图像到声音转换图像到文本转换声音到文本转换多模态数据处理

Ovis-2视觉模型官网 – 高效OCR与视觉识别

Ovis-2是一个视觉大模型，具备强大的图像和视频识别能力，尤其在OCR方面表现卓越。虽然其推理能力目前定位为辅助识别，但建议在实际使用中结合其他推理能力更强的大模型，以实现更全面的功能。

0

图像和视频识别深度推理视觉识别辅助识别

Yolo_Label开源项目 – YOLO图像标注工具

Yolo_Label是一款专为训练YOLO神经网络设计的图像对象边界框标记工具。该工具通过高灵敏度的标记方法和简化的操作流程，显著减少了用户在标记过程中的手腕疲劳。其设计旨在优化图像标注流程，提高对象检测的准确性，特别适用于需要大量标注数据的YOLO神经网络训练场景。

0

AI辅助图像标注YOLO图像标注工具YOLO神经网络训练图像对象边界框标记

TRIDENT开源项目 – 病理图像处理利器

TRIDENT 是一款专为大规模全切片图像处理设计的工具，旨在提升病理图像分析的效率和便捷性。它支持多种基础模型和滑片特征模型，能够高效地进行组织分割和补丁提取，为病理研究提供强大的技术支持。

0

大规模图像分析滑片特征模型病理图像处理工具组织特征提取

olmOCR开源项目 – 高性能开源PDF文本提取工具

olmOCR是一款开源的高性能OCR模型，专门用于将PDF和文档图像转换为清晰、结构化的纯文本。它基于微调后的7B视觉语言模型，支持处理复杂布局、表格、方程式以及手写文档，输出为Markdown格式。olmOCR完全开源，包括模型权重、数据和训练代码、推理代码，支持在4090显卡上本地运行。处理100万页PDF的成本约为190美元，性能优于Marker、MinerU以及GOT-OCR 2.0等工具。

0

PDF文档处理学术论文优化开源OCR项目手写内容识别

Janus-Pro-7B官网 – 高分辨率视觉多模态模型

Janus-Pro-7B是DeepSeek发布的一款视觉多模态模型，支持384x384分辨率的图像输入，并具备强大的图像生成功能。该模型结合了视觉和语言处理的多模态能力，能够在普通电脑上高效运行，适用于多种视觉和多模态任务。

0

图像到文本转换图像描述生成多模态图像生成视觉问答系统

SkyReels-V1-Hunyuan-I2V官网 – 基于混元的图生视频模型

SkyReels-V1-Hunyuan-I2V是基于腾讯混元文生视频微调的图生视频模型，适用于comfyUI平台。该模型主要针对以人为主体的数据，能够捕捉33种独特面部表情，并拥有超过400种自然动作组合。它在开源社区中属于较为先进的图生视频模型，提供了无需充值会员的视频生成解决方案。

0

图生视频模型开源视频生成工具自然动作模拟面部表情捕捉

DiffusionKit开源项目 – Apple Silicon扩散模型推理工具

DiffusionKit是一个专为Apple Silicon芯片设计的扩散模型设备端推理工具，利用Core ML和MLX技术实现PyTorch模型的转换与图像生成。它支持文本到图像和图像到图像的生成功能，能够在Apple Silicon设备上高效运行，生成高质量的图像内容。

0

Apple Silicon扩散模型推理工具PyTorch模型转换图像到图像生成文本到图像生成

MedRAX开源项目 – AI辅助胸部X光诊断

MedRAX是一款强大的AI辅助诊断工具，专为胸部X光检查设计。它集成了多种先进的医学图像分析工具，支持检测、分类、定位等多任务处理。通过2500个复杂医学问题的基准测试，验证了其卓越性能。MedRAX支持本地和云端部署，灵活适配不同需求，能够分析胸片细节及病变并标注位置，识别18种病理类型，生成诊断报告。此外，它还支持交互对话，理解复杂的医疗查询，并根据任务自动选择合适的工具和分析方法，进行多步医学推理。

0

AI辅助胸部X光诊断工具医学图像分析本地和云端部署自动化诊断支持

Optimized Fused-SSIM开源项目 – 高性能图像质量评估工具

这是一个优化版的结构相似性（SSIM）度量工具，专为高性能计算设计，能大幅提升图像质量评估的速度和效率。通过CUDA优化，减少了计算冗余，显著提升了性能，适用于深度学习中的图像质量优化任务。

0

CUDA优化深度学习图像质量优化高性能图像质量评估工具

YOLO-NAS开源项目 – 高性能目标检测模型

YOLO-NAS是一个全新的目标检测模型，其在性能上超越了之前的目标检测模型，尤其适用于小型设备。该模型完全开源，具有高效的实时处理能力，特别适合在边缘设备上应用。通过利用流行的注意机制，YOLO-NAS显著提高了小物体检测的准确性和物体定位的精度，使其成为计算机视觉任务中的理想选择。

0

YOLO-NAS实时处理小物体检测目标检测模型