AI图像工具 | 第 11 页

FollowYourClick是由腾讯混元、清华大学和香港科技大学联合推出的图生视频模型。用户可以通过点击图片的特定区域并添加简短的提示词，将静态图片转换为动态视频。该项目通过简单的交互方式，实现了对图片中特定区域的动画生成，广泛应用于创意设计、教育演示、广告制作等领域。

0

交互式动画生成创意设计工具图生视频模型

DUSt3R开源项目 – 无需先验信息的3D重建

DUSt3R 是一种全新的3D立体重建方法，仅需两张图片即可完成3D建模，无需相机校准或视点姿态等先验信息。该项目提供了从图像对到3D点云的完整流程，支持多种分辨率和模型配置，适用于多种场景的3D重建任务。

0

3D重建Docker支持图像处理开源项目

aidea-server开源项目 – AI大模型聊天与绘画集成平台

aidea-server 是一款由国内独立开发者开源的AI大模型聊天、AI绘画、AI图生视频聚合集成产品，支持全平台（web/h5/pc/Android/iOS），包含会员账户系统和支付系统，完成度非常高。前后端项目完全开源，用户可自行部署，开箱即用。支持多种AI聊天模型如GPT、通义千问、文心一言等，以及开源大模型如Yi 34B、Llama2、ChatGLM2等。此外，还支持文生图、图生图、超分辨率、黑白图片上色、艺术字、艺术二维码等功能。

0

AI绘画AI聊天模型图像处理开源大模型

SDXS开源项目 – 小米开源AI绘画模型，生图速度提升30至60倍

SDXS是小米开源的AI绘画扩散模型，通过知识蒸馏技术和单步DM训练方法，显著提升了生图速度。SDXS系列包括SDXS-512和SDXS-1024两个模型，分别针对512x512和1024x1024分辨率的图像生成需求，单GPU环境下推理速度分别达到约100 FPS和30 FPS，相较于传统模型速度提升30至60倍。SDXS还支持ControlNet训练，适用于图像条件控制和图像到图像的高效转换。

0

AI绘画模型ControlNet训练单步DM训练图像生成

Twitter-Insight-LLM开源项目 – Twitter数据抓取与分析工具

Twitter-Insight-LLM是一个开源项目，主要用于从Twitter抓取数据，并支持基于嵌入的图像搜索、数据分析和可视化、图像标注等功能。项目利用Selenium进行数据抓取，支持将数据保存为JSON和Excel格式，并提供初步的数据分析和图像标注功能。此外，项目还引入了实验性的基于嵌入的图像搜索功能，支持多语言搜索。

0

OpenAI APISeleniumTwitter数据抓取图像搜索

Magic Clothing开源项目 – 基于LDM的服装驱动图像合成

Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统，专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本，能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件，如肖像和参考姿势图像，并且提供了不同分辨率的模型权重。

0

Gradio界面Hugging Face模型权重Python脚本基于LDM的服装驱动图像合成

VTracer开源项目 – 位图转矢量图工具

VTracer 是一个开源软件，用于将位图（如 JPG 和 PNG）转换为矢量图形（SVG）。它能够处理高分辨率扫描图像和低分辨率像素艺术，适用于历史文化资料数字化、设计工作和游戏开发等场景。与 Potrace 相比，VTracer 可以处理彩色图像，并且输出更紧凑的矢量文件。它最初设计用于处理高达千兆像素的历史蓝图扫描，同时也适用于复古游戏艺术的像素化处理。

0

位图转矢量图工具图像处理开源项目设计工具

deepfakes/faceswap开源项目 – 深度学习人脸交换工具

FaceSwap 是一个基于深度学习的工具，能够在图片和视频中识别并交换人脸。它支持多种功能，包括人脸交换、面部表情转换等，适用于娱乐、影视制作、隐私保护等领域。项目提供了详细的安装和使用指南，支持多种操作系统（Windows、Linux、MacOS），并且需要现代GPU以获得最佳性能。FaceSwap 不仅是一个强大的工具，还为开发者和爱好者提供了学习和实验AI技术的机会。

0

AI技术学习影视特效处理深度学习人脸交换工具隐私保护

LoG开源项目 – 高效渲染大规模3D场景

LoG是浙江大学3DV小组提出的一种新型3D场景高效渲染方法，旨在解决高质量、实时渲染数百万平方米大规模场景的挑战。它采用类似细节层次（LOD）的思想，通过树状结构存储高斯原始体，实现场景的高效渲染，适用于游戏开发、电影制作、城市规划和虚拟旅游等领域。

0

3D场景渲染城市规划游戏开发虚拟现实

IC-Light开源项目 – 图像照明效果处理工具

IC-Light 是一款开源项目，用于操纵图像的照明效果。它提供了两类模型：文本条件重照明模型和背景条件模型。文本条件模型允许用户输入文本提示词（如“左侧光线”、“日光”）来生成具有特定光照方向和特征的图像。背景条件模型通过结合背景提示信息，可以对前景物体进行不同风格的光照变化。该工具利用HDR图像中光线传播的独立性，确保不同光源的混合效果与混合光源产生的效果一致。

0

HDR图像处理图像照明效果处理工具文本条件重照明背景条件重照明

layerdivider开源项目 – 图片分层工具

Layerdivider 是一个基于机器学习的开源工具，能够将单张图片转换为分层的PSD文件。它通过识别并分离图像中的颜色区域，构建出与原始图像色彩相近但更具组织性的图层。该工具支持在Google Colab上运行，也可以在本地安装使用。

0

PSD文件生成图片分层工具开源项目机器学习

OpenCLAY开源项目 – 高质量3D模型生成AI

OpenCLAY是由影眸团队推出的3D生成AI模型，能够在几十秒内通过文本生成高质量的3D模型。该模型具有逼真的材质效果，支持多种输入类型和用户控制，适用于广泛的3D创作需求。

0

3D模型生成增强现实文本生成3D游戏开发

DynamiCrafter开源项目 – 静态图像转动画

DynamiCrafter是由香港中文大学、腾讯AI实验室和北京大学共同开发的项目，利用视频扩散先验技术将静态图像转换为动画。该项目支持多种主题和风格，如风景、人物、动物、交通工具、雕塑等，并且能够生成高分辨率、动态连贯的视频。DynamiCrafter还提供了生成帧插值和循环视频生成的功能，适用于多种应用场景，如故事讲述视频生成等。

0

帧插值循环视频生成自定义模型训练视频扩散先验技术

Rembg开源项目 – 高效去除图片背景的工具

Rembg 是一款开源工具，专注于快速且精确地从图片中移除背景。它支持多种输入输出格式，可以作为命令行工具、库或Docker容器使用。Rembg 提供了多种预训练模型，适用于不同的使用场景，如人像分割、动漫角色分割等。它还支持GPU加速，适用于大规模图像处理任务。

0

Docker容器GPU加速去除图片背景命令行工具

CompreFace开源项目 – 开源人脸识别系统

CompreFace是一个免费且开源的人脸识别系统，基于Docker应用，可以作为独立服务器或部署在云中。它提供了REST API，支持人脸识别、人脸验证、人脸检测、关键点检测、口罩检测、头部姿态检测、年龄和性别识别等功能。用户无需具备机器学习技能即可轻松集成和使用。CompreFace支持CPU和GPU，易于扩展，且具备角色管理系统，方便控制对服务的访问权限。

0

人脸检测人脸验证口罩检测头部姿态检测

DeepFaceLive开源项目 – 实时面部交换软件

DeepFaceLive 是一款基于深度学习技术的实时面部交换软件，支持在直播或视频通话中进行低延迟的面部替换。它能够完美复刻五官、脸型、嘴型、表情、牙齿和发型，生成的图像真假难辨。该软件与著名的换脸软件 DeepFake 同源，提供了多种功能模块，包括面部交换、面部动画等，适用于多种场景。

0

实时面部交换深度学习直播换脸视频通话换脸

ToonCrafter开源项目 – 生成卡通动画过渡效果的工具

ToonCrafter 是一个由香港中文大学、香港城市大学和腾讯人工智能实验室联合开发的工具，旨在帮助动画师生成和优化卡通动画的过渡效果。它通过生成模型和插值技术，解决了卡通动画中帧与帧之间过渡不自然的问题，显著提升了动画制作的效率和效果。项目支持多种功能，包括卡通草图插值、草图上色、稀疏草图引导、参考图像上色、细节注入与恢复以及用户交互控制。

0

动画过渡效果优化卡通动画生成工具草图上色草图插值

99AI开源项目 – 综合性AI Web应用平台

99AI是一个可商业化的AI Web平台，提供一站式的人工智能服务解决方案。它集成了多种AI技术，包括对话、绘画、语音处理等功能，支持私有化部署和多用户管理，适合企业、团队或个人快速构建AI服务。前端使用Vite + Vue3框架，后端采用Node.js + NestJS，保证了服务的稳定性和扩展性。

0

AI Web应用平台AI创作AI对话NestJS

MimicBrush开源项目 – 创新图像编辑工具

MimicBrush是一个基于参考图像的零样本图像编辑工具，能够根据用户提供的参考图像进行局部重绘。用户只需在原图中指定需要编辑的部分，并上传一张参考图像，MimicBrush即可自动捕捉两者之间的语义对应关系，并完成图像编辑。该项目支持多种模型和框架，如HuggingFace和ModelScope，并提供本地和在线演示。

0

多种模型和框架支持局部重绘功能本地和在线演示语义对应关系捕捉

OutfitAnyone开源项目 – 阿里巴巴开发的2D虚拟试穿框架

OutfitAnyone是由阿里巴巴开发的基于扩散模型的2D虚拟试穿框架，旨在解决现有虚拟试穿技术在生成高保真、细节一致结果时遇到的挑战。该项目支持任何服装和任何人的虚拟试穿，具有广泛的应用场景，如电商、时尚设计等。项目目前已在ModelScope和Hugging Face上提供体验版本，用户可以通过上传服装图像进行虚拟试穿。

0

2D虚拟试穿框架扩散模型虚拟试穿阿里巴巴

Stable Fast 3D开源项目 – 快速生成高质量3D模型

Stable Fast 3D是由Stability AI推出的开源模型，专注于从单张图片快速生成高质量的3D网格模型。该模型在0.5秒内即可将图片转换为详细的3D资产，包括UV展开的网格、材质参数和减少光照烘焙的反照率颜色。Stable Fast 3D基于TripoSR，但引入了多项新技术，确保生成的网格无伪影，并且纹理和材质参数易于集成到游戏引擎中。

0

3D模型生成Stability AI图像转3D开源项目

Diffree开源项目 – 基于扩散模型的文本引导图像编辑工具

Diffree是一种基于扩散模型的图像编辑工具，专门用于通过文本描述在图像中添加对象。它无需用户手动绘制遮罩或边界框，而是依靠模型自动预测对象的位置和形状，实现新对象的无缝融合。Diffree基于Stable Diffusion模型，并结合了一个额外的掩码预测模块，能够在保持背景一致性的同时，根据文本引导添加新对象。

0

图像修复基于扩散模型的图像编辑工具文本引导图像编辑高分辨率图像处理

Segment Anything Model 2 (SAM 2)开源项目 – 图像和视频对象分割的开源AI模型

SAM 2 是 Meta AI 团队开发的开源 AI 模型，专注于图像和视频中的对象分割任务。它是全球首个支持视频实时抠像的 AI 大模型，能够在零样本前提下实现精准的对象分割。Meta 还提供了基于网络的演示体验，并共享了用于构建 SAM 2 的数据集 SA-V，许可为 CC BY 4.0。SAM 2 的设计基于简单的 Transformer 架构，支持实时视频处理，并提供了一个模型在环的数据引擎，通过用户交互改进模型和数据。

0

Transformer架构图像分割实时处理开源AI模型

LabelU开源项目 – 多功能数据标注平台

LabelU 是一个全面的数据标注平台，专为处理多模态数据设计。它提供了一系列先进的标注工具和高效的工作流程，使用户能够轻松应对图像、视频和音频的标注任务。LabelU 旨在满足复杂数据分析和模型训练的需求，支持目标检测、分类、分割、关键点、折线、OCR等多种算法场景。此外，它还支持导入预标注的JSONL文件进行二次修改，并允许使用大模型进行自动标注后进行人工批量审核和修改。

0

人工智能辅助标注图像标注工具多模态数据处理数据标注平台

Clarity Upscaler开源项目 – 开源AI图像放大增强工具

Clarity Upscaler 是一款基于最新AI技术的开源图像放大与增强工具，能够将低分辨率图像放大到更高分辨率，同时保持图像的清晰度和质量。它适用于多种场景，如风景、肖像、插图、动漫、室内设计等。项目完全开源，用户可以自由使用和修改其代码。此外，Clarity Upscaler 还提供了多种使用方式，包括通过应用程序、API、ComfyUI、Cog 和 A1111 webUI 等。

0

AI图像放大工具Clarity Upscaler开源图像增强工具

UniPortrait开源项目 – 人像图像个性化统一框架

UniPortrait是由阿里巴巴集团研究团队开发的一个创新性人像图像个性化框架。该框架能够统一处理单人和多人图像的个性化生成，确保在复杂场景中的身份一致性，并支持高保真度的身份保持和广泛的面部可编辑性。它无需预定义布局，支持自由文本描述，适用于多种应用场景。

0

ControlNetIP-AdapterStyleAligned个性化框架

SEED-Story开源项目 – 多模态长篇故事生成

SEED-Story是由腾讯ARC实验室推出的一个多模态长篇故事生成项目。它基于大型语言模型（MLLM），能够从用户提供的图像和文本开始，生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。项目包括多模态故事生成模型、StoryStream数据集以及三阶段的技术方法（视觉分词、指令调优和去分词器适应）。用户可以通过提供起始图像和文本，生成多达25个多模态序列的故事，且生成的图像与叙事文本在风格和角色上保持高度一致。

0

StoryStream数据集图像与文本一致性多模态长篇故事生成大型语言模型

GenWarp开源项目 – 单图生成多视角图像

GenWarp是一种从单张图像生成不同视角新图像的方法。它能够在保留原始图像重要信息和细节的同时，生成视角变化后的图像，确保信息不会丢失或扭曲。该项目提供了模型的推理代码，用户可以通过输入图像和相机姿态生成新视角图像。

0

单图生成多视角图像开源项目推理代码深度估计模型

PuLID开源项目 – 无调优身份自定义方法

PuLID（Pure and Lightning ID Customization via Contrastive Alignment）是一种专为文本生成图像模型（Text-to-Image, T2I）设计的无调优身份（ID）自定义方法。其主要目标是在生成个性化图像时，保持高ID相似度的同时，尽量减少对模型原有行为的干扰。用户可以通过提供一张参考照片，并结合文本描述，快速更改图像中人物的外貌和身份特征，同时保持图像的风格和质量不变。

0

个性化图像生成多模型支持文本生成图像模型身份特征修改

VirtualWife开源项目 – AI虚拟数字人互动项目

VirtualWife是一个创新的虚拟数字人项目，致力于打造具有AI灵魂的虚拟角色。项目基于ChatGPT实现与用户的自然语言交互，支持在B站进行直播，并允许用户自由更换VRM人物模型。通过自然语言处理和机器学习技术，VirtualWife能够理解和响应用户输入，提供智能化的互动体验。项目支持一键部署、跨平台运行、个性化角色设定、长短期记忆、多模型切换等功能，旨在让虚拟数字人融入人类生活，作为情感导师或心理咨询师，解决用户的情感需求。

0

AI互动B站直播ChatGPTVRM模型