AI图像工具 | 第 76 页 | AI-magic

AI图像工具

EasyPhoto开源项目 – AI肖像画生成Webui插件

EasyPhoto开源项目 – AI肖像画生成Webui插件

EasyPhoto是一款Webui UI插件，用于生成AI肖像画，该代码可用于训练与您相关的数字分身。

AI肖像画生成Webui插件个性化肖像生成数字分身训练

music-to-image官网 – 根据音乐生成视觉图像

该项目能够根据上传的音乐文件生成对应的视觉图像，适用于视频制作和艺术创作，能够将音乐与视觉艺术结合，为创意项目提供灵感。

多媒体艺术作品根据音乐生成视觉图像艺术创作视频制作

ReplaceAnything开源项目 – 可替换万物的工具

ReplaceAnything开源项目 – 可替换万物的工具

ReplaceAnything是一款能够准确保留指定物体，并通过输入提示词，实现超高质量内容替换的工具。它支持多种场景应用，适用于商用场景如AI模特、商品宣传图和艺术写真照。

AI图像替换工具人物替换工具商用图像处理高质量内容替换

SPARC-多模态表示的精细化方法

SPARC是一种用于从图像-文本对中预训练更精细的多模态表示的方法，通过在描述中的每个token上学习图像块的分组来实现。

图像分割图像分类图像检索多模态表示

Diagen开源项目 – 一键生成数据图表的智能工具

Diagen开源项目 – 一键生成数据图表的智能工具

Diagen是一款通过AI技术将复杂数据转化为美观图表的工具，支持多种图表类型，让数据可视化变得简单快捷。

AI生成图表工具一键生成图表数据可视化工具

Make-A-Character (MACH)开源项目 – 根据文本描述快速生成3D角色

一个用户友好的框架，用于根据文本描述创建逼真的 3D 头像，能够在 2 分钟内生成具有详细面部特征、头发和服装的3D角色。

3D角色生成工具动画角色原型制作文本描述生成3D角色游戏开发角色创建

ComfyUI-PuLID-Flux-Enhanced开源项目 – 图像处理与生成的增强工具

ComfyUI-PuLID-Flux-Enhanced开源项目 – 图像处理与生成的增强工具

针对 ComfyUI 的 PuLID Flux 增强版本，用于图像处理和生成，支持多种图像融合方法和快速自训方法，以及灰度与 RGB 图像之间的切换。

ComfyUI增强版本图像处理工具图像生成工具图像融合方法

IDM-VTON开源项目 – 提升真实感的虚拟试穿模型

IDM-VTON开源项目 – 提升真实感的虚拟试穿模型

IDM-VTON项目旨在通过改进的扩散模型，提升服装试穿的保真度与真实感，生成高质量的虚拟试穿图像，结合高级语义与低级特征，增强视觉效果的真实性，并通过详细的文字提示优化生成结果。

扩散模型文字提示优化服装试穿虚拟试穿模型

LCM官网 – 实时生成内容的潜在一致性模型

实时潜在一致性模型（real-time Latent Consistency Model），可以根据用户屏幕实时生成内容。该模型利用屏幕捕捉API，能够与现有绘图工具兼容，提供实时反馈，帮助用户高效创作。

AI辅助创作实时内容生成屏幕捕捉API潜在一致性模型

ComfyUI_BiRefNet_ll开源项目 – 多场景预训练模型插件

ComfyUI_BiRefNet_ll开源项目 – 多场景预训练模型插件

提供了 ComfyUI 的 BiRefNet 插件，支持多种预训练模型的使用，包括通用、人像、图像分割等场景的模型，并且支持自动下载模型文件。

BiRefNetComfyUI插件图像分析图像处理

Vision Agent开源项目 – 用于视觉任务的智能代理库

Vision Agent开源项目 – 用于视觉任务的智能代理库

一个利用代理框架进行视觉任务的库，能够快速生成代码，帮助用户完成图像识别任务，简化视觉问题的解决过程。

图像识别快速原型设计机器学习工作流自动生成代码

traiNNer开源项目 – 基于PyTorch的图像处理深度学习框架

traiNNer开源项目 – 基于PyTorch的图像处理深度学习框架

traiNNer是一个基于PyTorch的深度学习框架，旨在实现图像和视频的超分辨率、恢复以及图像到图像的翻译。它提供了灵活的模型结构，支持多种功能，适用于不同的图像处理需求。

PyTorch图像处理深度学习框架图像恢复图像翻译

docker-prompt-generator开源项目 – 根据图片生成prompt的开源工具

docker-prompt-generator开源项目 – 根据图片生成prompt的开源工具

一个根据图片生成prompt的开源工具，实现了类似于 Midjourney新推出的 /describe 功能。该工具利用先进的神经网络模型，能够将中文描述翻译为英文，并扩展关键词，以生成适合Midjourney的完整prompt。

Midjourney prompt生成器中文到英文的prompt翻译开源工具根据图片生成prompt的工具

6DGS开源项目 – 从单幅图像中估计物体的6D姿态

6DGS开源项目 – 从单幅图像中估计物体的6D姿态

6DGS是一个基于3D高斯点云模型的项目，旨在从单幅图像中进行物体的6D姿态估计。该技术在机器人视觉和增强现实等领域具有重要应用价值。

3D高斯点云模型6D姿态估计增强现实机器人视觉

cloudflare-ai-web开源项目 – 融合多种AI技术的Web平台

cloudflare-ai-web开源项目 – 融合多种AI技术的Web平台

cloudflare-ai-web是一个集成了GeminiPro Vision、Cloudflare Workers AI和ChatGPT的Web平台，旨在提供强大的AI处理能力和友好的用户体验。该平台的架构可扩展，便于开发者创建个性化的AI应用程序，并与其他Web服务无缝集成。

AI集成平台Web服务集成可扩展架构图像识别

img2img-turbo-基于SD开源项目 – Turbo的一步图到图变换

img2img-turbo-基于SD开源项目 – Turbo的一步图到图变换

img2img-turbo是一个高效的图像转换工具，基于SD-Turbo技术，能够快速将输入图像转换为新的风格或形态，支持多种输入格式，并提供用户友好的界面和可调节的转换参数。

SD-Turbo技术一键图像转换图像转换工具批量处理图片

LivePortrait官网 – 一键让图片唱歌说话

一个一键整合包，上传一段视频即可让图片唱歌说话，甚至可以驱动动物表情！

动物表情驱动图片唱歌工具视频上传工具

PlotAI开源项目 – 用LLM生成图表代码

PlotAI开源项目 – 用LLM生成图表代码

PlotAI利用大型语言模型生成Python和Matplotlib的图表生成代码。用户只需提供DataFrame和一个提示，PlotAI会自动构建适合LLM的提示，并返回相应的Python代码和图表。

LLM生成图表代码Matplotlib代码生成Python图表生成数据可视化工具

DiffBIR开源项目 – 基于扩散模型的盲影像复原

DiffBIR开源项目 – 基于扩散模型的盲影像复原

DiffBIR是一个基于扩散模型实现盲影像复原的项目，支持多种类型的图像，包括动漫、人物、风景和物品等，旨在有效处理盲图像问题，适用于多种应用场景。

基于扩散模型的图像复原多类型图像处理盲影像复原预训练模型

CreatiLayout开源项目 – 创意布局图像生成框架

CreatiLayout开源项目 – 创意布局图像生成框架

CreatiLayout是一个通过布局和文本提示生成高质量图像的框架，旨在帮助用户实现更具创意的视觉效果，适用于各种创意设计应用。

创意设计应用布局和文本提示生成图像自动化图像生成高质量图像生成

Xlabs Flux Lora官网 – 对比Lora效果的便捷工具

Xlabs Flux Lora是一个用于比较有无Lora效果的工具，通过相同的种子和prompt，用户可以轻松查看两者的生成结果差异。该项目支持多种模型设定，并提供了一个用户友好的界面，方便用户进行实验和探索。

Lora效果比较工具图像生成对比用户友好的实验工具

med-flamingo开源项目 – 执行少样本医学视觉问答任务

med-flamingo开源项目 – 执行少样本医学视觉问答任务

med-flamingo是一个基于OpenFlamingo-9B和LLaMa-7B构建的模型，能够在医学领域执行少样本的视觉问答任务。该项目结合了CLIP ViT/L-14视觉编码器，并使用约4.7K本医学教科书进行训练，包含0.8M张图像和548M个token，支持1.6M个图像字幕对的生物医学数据集。

医学图像分析医学视觉问答少样本学习文本生成

GOT-OCR2.0开源项目 – 开源高效的OCR模型

GOT-OCR2.0开源项目 – 开源高效的OCR模型

分享一个端到端的开源 OCR 模型，号称 OCR 2.0，支持场景文本、文档、乐谱、图表、数学公式等内容识别，拿到了 BLEU 0.972 高分。

GOT-OCR2.0开源OCR模型文本识别高准确率OCR

Awesome-AI4Animation开源项目 – 提升动画创作效率与质量的AI工具库

Awesome-AI4Animation开源项目 – 提升动画创作效率与质量的AI工具库

专注于动画制作的生成式AI工具库，汇集了最新的论文、项目和数据集，旨在帮助动画创作者利用AI技术提升创作效率和质量，让动画制作更加简单高效

动画创作AI工具动画制作效率提升数据集支持生成式AI论文

Zero123++开源项目 – 仅需一图，生成多视角

Zero123++开源项目 – 仅需一图，生成多视角

Zero123++是一个基于扩散模型的图像生成工具，只需提供一张输入图像，即可生成该图像的多个视角，支持高质量图像的生成，适用于各种类型的图像，为计算机视觉和虚拟现实应用提供强大支持。

基于扩散模型的图像生成工具多视角图像生成虚拟现实支持计算机视觉应用

FilmRemoval开源项目 – 基于偏振先验去除透明薄膜皱纹

FilmRemoval开源项目 – 基于偏振先验去除透明薄膜皱纹

FilmRemoval项目旨在利用偏振先验技术，有效去除透明薄膜上的皱纹，从而改善图像质量。该方法通过学习与薄膜的光学特性相关的模式，能够在图像处理和摄影中实现显著的视觉清晰度提升。

偏振先验技术去除透明薄膜皱纹图像处理摄影

dreamfields-3D开源项目 – 通过文字生成三维模型的AI工具

dreamfields-3D开源项目 – 通过文字生成三维模型的AI工具

一个使用文字输入生成三维模型的AI工具，支持图片prompt的应用方向。该工具能够生成带颜色的三维模型，并且能够输出带顶点色的obj和ply格式。用户可以在Colab上运行它，并且它与主流建模软件（如Blender、Rhino）兼容。

Colab运行的3D模型生成工具与Blender和Rhino兼容的3D建模工具文字生成三维模型的AI工具

注意力声称对抗网络（AttnGAN）-根据文本描述生成图片的AI工具

AttnGAN是微软开发的一种人工智能图像生成器，能够根据用户提供的文本描述生成对应的高质量图片。它通过训练模型使其理解文本与图像之间的关联，从而在生成图像时能够关注到文本描述的不同部分，确保生成的图像与描述内容高度一致，具有较强的实用性和灵活性。

AI图像生成工具广告市场营销文本到图像生成游戏内容生成

Awesome Diffusion Models In Low-level Vision开源项目 – 低级视觉的扩散模型资源

Awesome Diffusion Models In Low-level Vision开源项目 – 低级视觉的扩散模型资源

面向低级视觉的扩散模型相关论文资源列表，包括了各种扩散模型在低级别视觉任务中的应用，如自然图像恢复、超分辨率、修复、去雾、低光增强等。这些模型在不同领域，包括医学图像分析、遥感图像处理等方面都有应用。

低级视觉扩散模型医学图像分析自然图像恢复超分辨率

ComfyUI-IPAdapter-Flux开源项目 – 基于FLUX.1的图像生成控制插件

ComfyUI-IPAdapter-Flux开源项目 – 基于FLUX.1的图像生成控制插件

基于FLUX.1的IPAdapter模型的ComfyUI插件实现，支持通过参考图像来控制生成结果。该项目提供了完整的模型权重和工作流程，可在ComfyUI中快速部署使用，同时也支持在线体验版本。

ComfyUIFLUX.1参考图像生成图像生成控制插件

1 … 74 75 76 77 78 … 159

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3