AI图像工具 | 第 70 页

Flux Ghibsky Illustration官网 – 高饱和度的梦幻插图

又一个非常好的 FLUX Lora，有一点吉卜力的风格，具有丰富的细节和高饱和度，生成的图片非常梦幻。

0

吉卜力风格插图壁纸内容创作梦幻风格插图高饱和度插图

PixelLM开源项目 – 高效的像素级推理与理解

PixelLM 是一种有效且高效的像素级推理和理解 LMM，专注于多目标推理分割和与文本描述结合的实例级分割等任务。

0

像素级推理多目标推理实例级分割文本描述结合

krea.ai官网 – 专注于美食图像生成

krea.ai是一个专注于美食相关图像生成的人工智能平台，提供逼真的静物表现，具备景深效果和模糊背景，旨在提升美食摄影的艺术感与视觉吸引力。

0

景深效果模糊背景美食图像生成美食摄影

Animate-X官网 – 增强运动表现的角色动画项目

Animate-X 是一个通用角色图像动画项目，旨在通过增强运动表现和全面的运动模式捕获，支持各种角色类型的动画制作。它基于 LDM 框架，利用源视频的 CLIP 视觉特征，为角色动画提供高质量的输出。

0

CLIP视觉特征LDM框架增强运动表现游戏动画

SVFR开源项目 – 视频人脸修复工具

SVFR是一款视频人脸修复工具，能够让模糊、破损的视频人脸变得清晰、完整，同时支持黑白视频上色，修复视频中的划痕和污点，使老视频焕然一新。

0

API接口命令行工具批量处理视频人脸修复工具

Ruined Fooocus Wildcards官网 – 增强AI图像生成的通配符支持

Ruined Fooocus Wildcards 项目支持通配符功能，允许用户在提示中使用通配符，从而提升AI图像生成的效果。用户可以通过指定颜色和风格参数，实现复杂的图像生成，并能与各种创意工具进行集成，参与社区讨论。

0

AI图像生成创意工具集成社区讨论通配符支持

Guidance with Spherical Gaussian Constraint for Conditional Diffusion开源项目 – 提升条件扩散过程的引导方法

一种使用球面高斯约束引导条件扩散过程的方法。该方法旨在通过约束条件扩散过程中的生成能力，以提高生成模型的性能和图像质量。

0

图像生成条件扩散模型生成模型性能提升高斯约束

RoomGPT开源项目 – 用 AI 重新设计你的房间

RoomGPT 是一个利用人工智能技术，帮助用户重新设计和美化房间的工具。用户可以上传房间照片，系统会根据不同风格生成全新的房间图像，无需身份验证或支付，操作简单，便于部署和试用。

0

AI房间设计工具ControlNet图像生成房间美化

Stable Diffusion 3.5 Medium官网 – 轻量级图像生成模型，快速高效

Stable Diffusion 3.5 Medium是一个轻量级的图像生成模型，具有较低的显存需求和更快的生成速度，适用于显存有限的设备。该模型在生成高质量图像时，能够节省3~4G显存，并且生成速度比Large模型快2.5倍，40步采样仅需10秒即可生成1M像素的图片，整体审美和细节表现良好。

0

AI辅助图像创作快速高效图像生成轻量级图像生成模型

Stable Diffusion Conceptualizer官网 – 强大的SD风格图像生成工具

Stable Diffusion Conceptualizer集合了众多非常好用的SD Text Inversion插件，这些插件可用于SD生成不同风格的图片。它提供用户友好的界面，支持多种风格的图像生成，并且能够输出高质量的图像，非常适合艺术创作和设计项目使用。

0

SD风格图像生成工具艺术创作设计项目高质量图像输出

Probable Motion开源项目 – 无监督多目标分割与运动模式预测

Probable Motion项目通过预测可能的运动模式，提供了一种无监督的多目标分割方法，能够在视频帧中精准地识别并分离出多个对象。该方法在处理复杂场景时表现出色，尤其适用于动态视频数据的分析和理解。

0

动态视频分析无监督多目标分割运动模式预测

Gemini 1.5 Pro官网 – 高效的多模态混合专家模型

一种计算效率高的多模态混合专家模型，能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。

0

多模态混合专家模型模型性能评估稀有语言翻译视频内容分析

MagicQuill开源项目 – 开源AI互动图像编辑工具

MagicQuill 是一个开源的 AI 互动式图像编辑工具，用户只需通过画笔涂抹和简单提示词即可轻松实现各种图像编辑操作。它支持精准的图片编辑，旨在提供用户友好的界面和AI支持的建议，帮助用户轻松完成创作。

0

AI支持的图像编辑互动图像编辑开源AI图像编辑工具用户友好的图像编辑工具

Yomitoku开源项目 – 日语文档图像分析的AI工具

Yomitoku是一个专为日语设计的AI驱动文档图像分析软件包，具备强大的文字识别和布局分析能力，支持多种输出格式。

0

OCR文字识别信息提取布局分析文档数字化

DoomPDF官网 – 高质量游戏画面生成工具

DoomPDF 是一个用于生成游戏画面的工具，旨在通过集成 AI 技术来实时生成高质量的游戏画面。

0

AI技术集成实时渲染游戏画面生成工具高质量图像输出

ProsePainter开源项目 – 通过文字创作图像的艺术工具

ProsePainter 是一个通过文字描述自动生成图像的艺术创作工具，它结合了直接数字绘画与实时引导的机器学习图像优化，为用户提供直观且友好的创作体验。

0

AI艺术创作工具实时图像优化文字生成图像工具

TorchCodec开源项目 – PyTorch视频解码工具

TorchCodec是一个专为PyTorch设计的视频解码工具，提供简单快速的API，可以将视频帧解码为PyTorch张量，方便机器学习模型的处理。用户需自行安装FFMPEG以支持多种视频格式的解码。

0

FFMPEG支持PyTorch视频解码工具机器学习模型集成视频帧解码

OpenPromptStudio开源项目 – 开源的 AIGC 提示词编辑工具

OpenPromptStudio 是一个开源的 AIGC （Midjourney）提示词可视化编辑小工具，旨在帮助用户更高效地管理和使用提示词。它支持英文与中文的相互翻译，分类管理提示词，并能导出可视化结果，极大地提升了用户的创作效率。

0

AIGC提示词编辑工具中英文翻译工具提示词可视化提示词管理

Densely Captioned Images开源项目 – 提供详细图像描述的数据集

Densely Captioned Images (DCI) 数据集旨在为图像提供详细的描述，以捕捉视觉细节，适用于计算机视觉领域的多种任务。

0

Densely Captioned Images数据集信息检索图像描述生成图像标注

MM-LLM-多模态大型语言模型的最新进展

MM-LLM是一个增强现有大型语言模型的框架，支持多模态输入和输出，同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计，并回顾了在主流基准上的表现，旨在推动多模态任务的发展。

0

多模态任务多模态大型语言模型推理与决策模型架构

Tactile DreamFusion开源项目 – 利用触觉传感器生成3D模型

Tactile DreamFusion项目利用触觉传感器进行三维生成，旨在增强虚拟现实和机器人技术中的环境感知能力。该项目通过高效的三维重建技术，使得触觉反馈的生成成为可能，进而实现更加真实和互动的体验。

0

3D模型生成三维重建机器人技术虚拟现实

TripoSR Bake开源项目 – 从2D图像生成3D形状

利用 TripoSR 模型从 2D 图像中推断出 3D 形状和纹理数据。该项目通过深度学习技术，能够从单张2D图像生成高质量的3D网格，支持用户进行手动几何编辑和纹理烘焙，极大地提高了生成效果和灵活性。

0

3D网格生成从2D图像生成3D形状手动几何编辑深度学习

Watermark-Removal开源项目 – 一键去除图片水印

Watermark-Removal是一个基于机器学习的图像修复工具，能够高效地去除图片上的水印，并且处理后的效果与原图几乎无差异。该工具支持多种使用场景，包括在Google Colab上运行或本地部署，适合高性能计算机，能够处理多种类型的水印，使用深度学习技术确保修复效果的高保真度。

0

批量处理API水印去除工具深度学习图像修复

Magic123官网 – 一款高效的3D物体生成工具

Magic123可以从一张图片生成高质量的3D物体，与以前的图像到三维技术相比，有显著的改进，适用于多个领域如游戏、工业设计等。

0

3D物体生成工具图像到3D模型转换工业设计应用游戏物体创建

Flux Triton开源项目 – AI驱动的图像生成工具

利用AI技术实现文本到图像和图像到图像的转换，提供高效、直观的图像生成体验。支持文本描述生成图像，以及对现有图像进行风格转换和修改，基于Flux潜在纠正流变换器，具有简洁的推理代码，方便用户使用和集成。

0

AI图像生成工具Flux Triton图像风格转换文本到图像生成

Stable Diffusion 3.5开源项目 – 快速生成高质量图像的AI模型

Stable Diffusion 3.5是一款用于简单推理的AI模型，能够快速生成高质量的图像，支持多种文本编码器和核心MM-DiT技术，让图像生成变得更加便捷。

0

AI图像生成模型文本描述生成图像高质量图像生成

Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis开源项目 – 基于姿势的人员图像合成

该项目通过粗到细的潜在扩散方法合成各种姿势的人物图像，增强图像生成的灵活性和真实感。

0

人物图像生成基于姿势的图像合成粗到细的潜在扩散虚拟环境图像生成

MoLE开源项目 – 人本中心的文本到图像扩散

通过混合低秩专家模型增强人本中心的文本到图像扩散，旨在生成更高质量的图像，适用于艺术创作等领域。

0

人本中心文本到图像扩散艺术创作工具高质量图像生成

MiniGPT4-Video-专为视频理解而设计的多模态大模型

MiniGPT4-Video是一个专为视频理解而设计的多模态大模型，能够同时处理时态视觉数据和文本数据，善于理解视频的复杂性，适用于多种视频内容的分析和处理任务。

0

多模态大模型视频内容分析视频宣传语生成视频标题生成

Towhee开源项目 – 开源嵌入框架，处理非结构化数据

Towhee 是一个开源的嵌入框架与社区，旨在帮助用户使用深度学习的方法处理非结构化数据，如图片、视频和自然语言。

0

图像嵌入开源嵌入框架深度学习自然语言处理