AI图像工具 | 第 71 页

Regional Prompting FLUX开源项目 – 无训练区域提示的扩散变换器

Regional Prompting FLUX是一个针对扩散变换器的无训练区域提示方法，旨在在缺乏训练数据的情况下有效调整模型。通过这种方法，用户可以在图像生成任务中使用区域提示，而不需要预先的训练过程。

Stable Diffusion长文本加权嵌入工具，突破77个token限制，为Stable Diffusion生成长文本加权提示嵌入，支持与Huggingface Diffusers兼容，适用于Stable Diffusion 1.5、SDXL和3版本，支持无限长度提示和权重调整

0

Huggingface DiffusersStable Diffusion权重调整长文本加权嵌入工具

sd-ppp开源项目 – Photoshop与AI绘画工具的桥梁

sd-ppp是一个能够将Photoshop与ComfyUI连接起来的插件，支持实时同步两边的结果，结合了Photoshop的手工调整与ComfyUI的自动AI工作流。它实现了与多个AI绘画工具的无缝沟通，支持多层、多文档协作，简化了工作流程。

0

Photoshop与AI绘画工具的集成图像处理工具多文档协作实时同步插件

Comfyui官网 – 支持稳定扩散3.5的用户友好界面

Comfyui 已经支持 SD3.5，现在就可以用了，只需要更新最新Comfyui。

0

ComfyUIFP8模型SD3.5低显存支持

Nyarch官网 – 二次元专用魔改操作系统

Nyarch是一个基于ArchLinux的二次元专用操作系统，集成了AI助理功能，并具备自动下载猫娘图片的能力，旨在为二次元爱好者提供便捷的使用体验。

0

AI助理二次元操作系统自动下载猫娘图片

ComfyUI-KepOpenAI-用户友好的GPT开源项目 – 4V API接口

ComfyUI-KepOpenAI是一个用户友好的GPT-4V API接口，支持图像与文本提示的智能文本生成，旨在提高内容生成的相关性和效率。该项目提供了直观的界面，使用户能够轻松生成高质量的文本内容，并与GPT-4V API高效兼容。

0

内容生成效率提升图像与文本提示应用程序集成智能文本生成

TCAN开源项目 – 新型人体图像动画框架

TCAN是一种基于扩散模型的新型人体图像动画框架，能够保持时间一致性并良好地推广到未知领域。它使用预先训练的ControlNet，增强了对姿势检测器异常值的稳健性，适用于多种姿势的视频合成任务。

0

ControlNet人体图像动画框架姿势驱动视频合成时间一致性

LC-FDNet开源项目 – 基于频率分解网络的无损图像压缩

LC-FDNet是一个利用频率分解网络进行无损图像压缩的项目，具有高效的压缩性能，能够在不损失图像质量的情况下大幅度减少图像文件的大小。该项目旨在优化存储和传输大规模图像数据的效率，适合需要高质量图像处理的应用场景。

0

无损图像压缩频率分解网络高效图像处理

CLIP Interrogator 2官网 – 根据图片生成可能的提示词

CLIP Interrogator 2 是一个强大的工具，能够根据用户上传的图片自动生成相关的提示词，帮助用户更好地理解和使用图像内容。这款工具具有简单易用的界面，支持多种图像格式，并且能够快速提供反馈，极大地方便了用户的操作和需求。

0

AI辅助图像理解Stable Diffusion提示词生成工具根据图片生成提示词

VGSE开源项目 – 视觉基础的零样本学习工具

VGSE是一个用于零样本学习的工具，利用视觉基础的语义嵌入技术，能够在没有标记示例的情况下进行图像分类和视觉数据的语义理解。

0

图像分类视觉基础的语义嵌入语义理解零样本学习工具

TurboEdit开源项目 – 通过文本快速编辑图像

TurboEdit是Adobe研究院推出的一项新技术，用户可以通过输入文本描述来快速编辑图像中的元素，如头发颜色、衣服、帽子和围巾等，编辑速度快于0.5秒，提供高度的精确控制和灵活性。

0

快速图像编辑文本驱动图像编辑精确控制图像特征

MGIE开源项目 – 多模态图像编辑的最新工具

苹果公司最新的多模态LLM引导的图像编辑（MGIE）工作，学会从简洁、有表现力的指令中学习，并提供明确的视觉导向以增强基于指令的图像编辑。

0

AI图像处理工具Photoshop风格编辑图像优化多模态图像编辑

Text2Performer开源项目 – 通过文字生成真人演员

Text2Performer 可以通过文字凭空生成真人演员，包括他们的形象、衣着和动作，帮助创作者在多个领域中实现虚拟角色的快速生成与定制。

0

动画短视频创作广告虚拟代言人文字生成真人演员游戏开发虚拟角色

NExT-GPT-下一代多模态生成模型

NExT-GPT是一个先进的多模态生成模型，能够处理文本、图像、视频和音频等多种输入，以任意组合生成丰富的输出。它仅需调整少量参数，具有低成本训练的优势，同时具备复杂的跨模态语义理解和内容生成能力，适合扩展到更多的应用场景。

0

人工智能研究内容生成多模态生成模型跨模态语义理解

NeMF开源项目 – 用于运动动画的神经网络技术

NeMF是基于神经运动场的运动动画建模技术，旨在高效生成流畅的动画效果，处理复杂的运动场景。

0

动画建模复杂运动场景处理流畅动画生成神经运动场

VisionCrafter开源项目 – 从文本生成动画与音乐的工具

VisionCrafter是一个具有图形用户界面的工具，支持AnimateDiff和其他项目，能够从文本生成动画和音乐。它非常适合制作短视频和GIF，以及创建简短的电影场景。

0

GIF制作文本生成动画文本生成音乐电影场景创建

QA-CLIP开源项目 – 中文CLIP模型，性能卓越

QA-CLIP是一个支持中文文本和图像的多模态理解的模型，具有最先进的性能和准确性，能够用于多种下游任务，如图像分类、文本生成等，且易于集成和使用。

0

中文多模态理解模型内容检索图像分类图像标注

MIMO开源项目 – 可控角色视频合成

MIMO是一个具有空间分解建模的可控角色视频合成项目，能够通过单个图像生成具有可控属性的视频，支持灵活的2D视频编码和3D动画生成，适用于交互式现实世界场景。

0

3D动画生成交互式现实场景可控角色视频合成

Leffa开源项目 – Meta开源的高质量AI试衣模型

Leffa是Meta公司与同济大学等共同研究的虚拟换衣技术，通过注意力学习流场实现可控的人像生成。该技术支持虚拟试衣和姿态迁移，能够精确控制人物的外观和姿势，减少细节失真问题。Leffa在A100 GPU上仅需6秒生成一张图像，并提供Gradio界面和HuggingFace平台体验。

0

API集成人像生成服装换装效果注意力学习

ZoeDepth开源项目 – 集成在Stable Diffusion中的图像处理工具

ZoeDepth是一个集成在Stable Diffusion WebUI中的图片成面工具，旨在为用户提供更好的图像处理体验。

0

Stable Diffusion集成工具图像处理工具深度图生成工具

ExAvatar开源项目 – 富有表现力的3D虚拟人

ExAvatar 是一种富有表现力的全身 3D 高斯虚拟人，结合了短单目视频学习到的全身参数网格模型和3D高斯溅射，能够呈现新颖的面部表情和姿势。同时，它能够有效处理视频中的模糊性和伪影，利用基于连接的正则化器减少伪影，确保生成的虚拟人更加真实和生动。

0

3D虚拟人生成游戏角色创建虚拟现实应用面部表情动画

AI深度图官网 – 通过AI生成深度图并实现虚化效果

AI深度图项目利用人工智能技术生成深度图，可输出立体动画，并将深度图保存为蒙版，方便在Photoshop中实现虚化效果。可以根据不同深度进行虚化，提升图像表现力和视觉效果。

0

AI生成深度图AI虚化效果Photoshop深度图处理立体动画生成

FLUXSwift开源项目 – Swift实现的FLUX图像生成模型

FLUXSwift是FLUX.1模型的Swift实现，利用mlx-swift库在苹果硅芯片上进行GPU加速，旨在高效生成图像。

0

FLUX图像生成模型GPU加速Swift实现苹果硅芯片优化

FP-DETR开源项目 – 全预训练检测变换器

FP-DETR是一个通过全预训练提高目标检测准确性的检测变换器。

0

FP-DETR全预训练目标检测目标检测准确性提升

Vision Transformer Cookbook with Tensorflow开源项目 – Vision Transformer的Tensorflow实现方案手册

该项目提供了Vision Transformer在Tensorflow中的完整实现，支持多种数据集和任务，易于扩展和修改，并包含详细的使用示例和文档，帮助用户快速上手并深入了解模型的应用与性能。

0

Tensorflow实现Vision Transformer图像分类特征图可视化

DDColor官网 – 为黑白照片和动漫着色的AI工具

DDColor，可以为历史黑白老照片提供生动、自然的彩色化。它甚至可以为动漫游戏中的风景着色，将你的动画风景转换成逼真的现实生活风格。

0

AI图像处理工具动漫着色黑白照片彩色化

TextureDreamer开源项目 – 纹理创作的智能助手

TextureDreamer 是一种可以将 3-5 个图像中的逼真、高保真和几何感知纹理放置到任意 3D 网格上的方法。

0

3D资产纹理生成增强现实纹理建筑可视化纹理影视制作纹理

LucidDreamer开源项目 – 一种新型的3D场景生成技术

LucidDreamer是一种新的3D场景生成技术，它不受特定领域的限制，可以生成更接近真实世界的3D场景。该技术通过递归的Dreaming和Alignment步骤，结合细粒度控制，提供了高质量的场景生成体验。

0

3D场景生成技术文本到场景生成深度估计图虚拟摄像机调整

Lumina-mGPT开源项目 – 多模态生成模型，文本转图像

Lumina-mGPT是一个多模态自回归模型家族，专注于从文本描述生成高质量的图像，能够处理多种视觉和语言任务，具备强大的生成能力和灵活的应用场景。

0

图像补全与编辑多模态学习文本转图像生成聊天机器人集成

Awesome-Visual-Autoregressive开源项目 – 视觉自回归建模资源库

精心整理的视觉自回归建模工作列表，涵盖了图像、视频、3D、多模态生成等领域

0

3D生成图像生成多模态生成视觉自回归建模资源库