AI图像工具 | 第 69 页

一键局部 P 图官网 – 方便的局部图片编辑工具

一款方便的图像编辑工具，允许用户快速进行局部图片编辑。它提供简单易用的界面，让用户可以轻松上传图片，选择需要编辑的区域，并实时预览修改效果，最终下载编辑后的图片。

0

图片编辑实时预览局部图片编辑工具

Flux开源项目 – 生成高质量图像的先进项目

Flux是由Stability AI原来Stable diffusion的创始成员打造的生成图像项目，生成图像的质量与midjourney不相上下，甚至更好！

0

ComfyUI集成Hugging Face模型开源图像生成项目本地开发图像生成

Yolov7 Flask开源项目 – 基于Flask的Yolov7模型API

Yolov7 Flask是一个美观的Flask Web API，支持Yolov7及自定义模型的推理，用户可以方便地上传图片并进行实时物体检测，适用于本地和云环境的部署。

0

Docker容器部署Flask Web APIYolov7模型API图像上传

Magi开源项目 – 自动识别漫画文本并转录

Magi是由牛津大学学生Ragav Sachdeva开发的项目，能够识别漫画中的文本块，并自动将其与漫画中的人物对应，实现对漫画内容的自动转录。

0

Hugging Face测试漫画内容转录自动识别漫画文本

Kolors-Virtual-Try-On官网 – 快手可灵出的虚拟穿衣

Kolors-Virtual-Try-On 是一款提供虚拟试衣功能的应用，用户可以通过上传照片和选择服装，实时体验不同风格的穿搭，适合喜欢时尚和购物的用户。

0

实时渲染时尚搭配工具社交媒体分享虚拟试衣应用

rgbx开源项目 – 根据照片生成分层图像

rgbx 是一个开源模型，能够根据输入的图片自动生成环境光遮蔽(AO)、法线图和粗糙度图，从而实现从单张照片反推出多层图像的功能，方便用于3D建模和游戏开发。

0

3D建模开源模型根据照片生成分层图像游戏开发

羽人开源项目 – 开源多模态大语言模型

基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型，建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。

0

图片理解多轮对话开放域问答开源多模态大语言模型

CushyStudio开源项目 – AI艺术生成工作室

基于ComfyUI的AI生成艺术工作室，可用于生成艺术品、资源或动画，提供脚本工具和动态界面，以进行实时人工反馈、策展和指导。

0

AI艺术生成动态界面实时反馈策展指导

DS-Fusion官网 – 根据文字生成艺术字，确保可读性

DS-Fusion可以根据文字含义自动生成艺术字，同时还能确保文字的阅读性，功能强大且实用，非常适合设计师和内容创作者使用。

0

广告宣传材料艺术字生成确保文字可读性社交媒体图像文本创建自动生成艺术字

MyVLM开源项目 – 个性化视觉语言模型

MyVLM使得大规模视觉语言模型（VLM）能够学习和推理用户个性化的信息，定制模型以反映用户的个人经历和关系。

0

个性化视觉语言模型图像描述生成用户体验改进视觉问答应用

WonderWorld官网 – 根据图片生成可交互的3D世界

WonderWorld是一个开源项目，通过用户输入的图片生成多样化且可互动的3D场景，包含自然、城市和幻想等主题。它利用先进的Fast Layered Gaussian Surfels (FLAGS) 技术，大幅提升了生成速度，支持动态路径布局，适合各种交互操作。

0

动态路径布局实时互动3D场景开源3D场景生成工具根据图片生成3D世界

Infinite-ISP开源项目 – 图像信号处理的瑞士军刀

这是一个相机图像信号处理器（ISP）的软件实现，能够将简单的传感器输入图像转换成色彩丰富、细节清晰的输出图像，让图像质量大幅提升。

0

图像信号处理图像处理算法相机图像处理高质量图像生成

阿里和港大的AI版P图工具-点两下鼠标，轻松完成P图

该工具通过智能算法，实现一键P图，自动适应光线角度和透视，极大地简化了图片处理流程，适合用户快速修图和调整图片效果。

0

AI版P图工具一键P图快速修图自动适应光线

Omegance开源项目 – 为扩散合成提供单一参数控制

Omegance是一个用于扩散基础合成的项目，通过单一参数支持多种粒度的控制，旨在为创意AI项目提供灵活的输出生成能力。

0

创意AI项目单一参数控制多样化输出生成扩散合成

LLaVA-CoT开源项目 – 首个自发推理的视觉语言模型

LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型，类似于GPT-01，具有强大的多模式处理能力。该模型通过11B参数的强大架构，支持复杂的视觉语言任务，并在多模式基准测试中表现优于多个现有模型。

0

图像理解多模式处理能力学术研究聊天机器人集成

openpose-editor开源项目 – Openpose编辑插件，简化骨骼动作编辑

适用于Automatic1111/stable-diffusion-webui 的Openpose Editor 插件，用户可以直接编辑骨骼动作，并从图像中识别姿态，实现动画效果的自定义。该插件与稳定扩散 web 用户界面无缝集成，提供友好的操作体验。

0

Openpose编辑插件动画效果自定义姿态识别骨骼动作编辑

LLaVA-Interactive-Demo开源项目 – 图像聊天与生成的AI应用

融合图像聊天、分割和生成/编辑的AI应用概念验证项目，基于LLaVA、SEEM和GLIGEN三个相关开源项目实现。

0

AI应用图像分割图像生成与编辑图像聊天

BlinkShot开源项目 – 实时AI图像生成器

BlinkShot是一个实时AI图像生成器，能够快速生成高质量的图像，支持自定义分辨率和生成步骤，适合艺术创作和设计领域。

0

图像处理实时AI图像生成器艺术创作设计原型

ComfyUI Visual Area Nodes开源项目 – 增强 ComfyUI 的区域控制

提供了一组自定义节点，用于在 ComfyUI 中增强基于区域的条件化控制，并提供了一个视觉面板以便用户预览这些区域在图像中的定位和缩放。该项目旨在提升用户在图像生成过程中的灵活性和可视化效果，确保用户能够更好地控制生成的内容。

0

ComfyUI区域控制图像生成自定义节点

voltaML-fast-stable-diffusion开源项目 – 一行代码加速Stable Diffusion(10x)的轻量库

voltaML-fast-stable-diffusion是一个轻量级库，通过简单的一行代码实现对Stable Diffusion模型的加速，速度提升可达10倍，支持Dreambooth的快速推理，方便用户进行机器学习和深度学习项目的快速部署和集成。

0

Dreambooth推理Stable Diffusion加速库机器学习深度学习

MONAI Vision Language Models开源项目 – 致力于医学应用的视觉语言模型

一个致力于医学应用的视觉语言模型集合，旨在解决通用模型在医学领域的挑战，并与专家分割和分类模型集成。

0

分类模型医学影像分析医学数据处理自动分割

As-Plausible-As-Possible: Plausibility-Aware Mesh Deformation Using 2D Diffusion Priors开源项目 – 利用2D扩散先验进行合理的网格变形

一种利用2D扩散先验进行合理网格变形的方法，能够确保变形后的网格在视觉上保持合理性。

0

2D扩散先验3D模型动画合理网格变形

Osam开源项目 – 本地开源模型分割工具

在本地运行开源分割任何模型的工具(受Ollama启发)，提供原始SAM和高效SAM等分割任何模型，本地API(CLI、Python和HTTP接口)，以及自定义功能，可托管自定义视觉模型

0

CLIHTTP接口Python API原始SAM

Janus官网 – 多模态理解与生成的强大模型

Janus是一个多模态理解和生成一体的模型，能够同时理解图片内容并生成新图像。它通过解耦设计来满足理解和生成任务对视觉编码器的不同需求，采用统一的自回归变换器架构处理各种模态的输入。

0

图像生成多模态理解自回归变换器视觉编码

Toddler Picture Story Generator开源项目 – 帮助快速创建幼儿故事的工具

一个帮助生成幼儿图画故事的项目，用户只需与程序对话即可快速创建故事内容。该项目提供简单易用的界面，支持多种主题和风格，适合不同语言用户，且可定制故事长度和内容。

0

图画故事自动生成对话式故事创作幼儿故事生成工具

VideoGigaGAN开源项目 – 视频超分辨率方法，生成高频细节视频

VideoGigaGAN是一种视频超分辨率（VSR）方法，能够生成具有高频细节和时间一致性的视频，扩展自GigaGAN。该项目通过将视频放大8倍，显著提高上采样视频的时间一致性，确保生成的画面在细节和流畅度上都达到高标准。

0

动画制作视频增强视频编辑视频超分辨率

CMT开源项目 – 结合卷积神经网络和视觉变换器

CMT是一个结合卷积神经网络和视觉变换器优势的项目，旨在提升图像分类和目标检测的性能，具有广泛的应用前景。

0

卷积神经网络图像分类目标检测视觉变换器

CogVideoX-Fun开源项目 – 灵活的视频生成工具

CogVideoX-Fun 是一个强大的工具，支持从图片生成视频，并能在任意分辨率下生成高质量视频，适用于各种AI图像和视频创作需求，同时支持训练基线模型和Lora模型。

0

AI视频创作工具从图片生成视频训练AI模型高质量视频生成

RPG-一种无需训练的文本到图像生成框架

RPG是一种新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的强大推理能力来增强文本到图像扩散模型的组合性。该系统将生成复杂图像的过程分解为子区域内的多个简单生成任务，实现区域化的组合式生成，集成文本引导的图像生成和编辑，显著提高了泛化能力。

0

图像编辑多模态LLM文本到图像生成组合式生成

RadGPT开源项目 – 先进的腹部CT图像与报告生成工具

基于 AbdomenAtlas 3.0 数据集的腹部 CT 扫描图像和医学报告的先进分割与报告生成模型，专为医学影像领域提供高质量的辅助诊断工具。该项目致力于提升医学影像分析的效率和准确性，支持医学专业人员在临床决策中做出更好的判断。

0

医学图像处理技术医学影像辅助诊断放射学报告生成腹部CT图像生成工具