AI图像工具 | 第 72 页 | AI-magic

AI图像工具

Comfyui_TTP_Toolset开源项目 – 图像平铺与高级控制工具集

Comfyui_TTP_Toolset开源项目 – 图像平铺与高级控制工具集

提供了一个用于图像平铺和高级控制修改的工具集，专为简单逻辑的惊人上采样节点工作流程设计，支持 Flux、Hunyuan 和 SD3 等 DIT 模型的常见应用。

DIT模型支持图像平铺工具高级图像处理

MLX Omni Server开源项目 – 本地推理服务器，专为Apple Silicon优化

MLX Omni Server开源项目 – 本地推理服务器，专为Apple Silicon优化

一款基于苹果MLX框架的本地推理服务器，专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口，实现文本对话、语音转换、图像生成等AI能力。

Apple Silicon优化OpenAI兼容API本地推理服务器硬件加速

ProPainter官网 – 一键去除视频中的物体和水印

ProPainter 是一款基于E2FGVI技术的视频处理工具，能够一键移除视频内的移动物体和水印，提供简单高效的视频编辑体验。

E2FGVI技术一键去除视频物体视频水印去除视频编辑工具

DimensionX开源项目 – 从单图像创建3D和4D场景

DimensionX 是一个创新的工具，可以从单一图像创建任意3D和4D场景，采用可控的视频扩散方法，结合维度变化的数据学习，使得用户能够精确操纵空间结构和时间动态。该项目还实现了3D生成的轨迹感知机制和4D生成的身份保留去噪策略，旨在为用户提供更加灵活和高效的场景生成体验。

4D场景生成从单图像创建3D场景时间动态生成空间结构操纵

VIGC开源项目 – 生成和修正视觉指令的工具

VIGC开源项目 – 生成和修正视觉指令的工具

VIGC（Visual Instruction Generation and Correction）是一个用于生成和修正视觉指令的项目，旨在提高视觉任务的效率和准确性，适用于多种视觉任务。

视觉任务优化工具视觉指令生成工具

WeCLIP开源项目 – 用于弱监督语义分割的强大模型

WeCLIP开源项目 – 用于弱监督语义分割的强大模型

WeCLIP是一个强大的语义分割模型，基于冻结的CLIP结构，致力于弱监督学习，通过有效的特征提取提升图像分割的性能，适用于各种计算机视觉任务。

图像分割弱监督语义分割模型计算机视觉

LongPrompt-LLamaGen开源项目 – 提升图像生成能力的模型

LongPrompt-LLamaGen开源项目 – 提升图像生成能力的模型

LongPrompt-LLamaGen是一个提升版的LLamaGen模型，融合了长文本提示和最前沿的AI技术，旨在为创意人士和开发者提供前所未有的图像生成能力。该模型不仅支持长文本提示，还通过增强的生成效果和多样性，满足用户对创意和质量的双重需求。

创意项目图像生成模型游戏开发素材艺术创作

Neural Mixture Guiding开源项目 – 加速路径追踪渲染的轻量级解决方案

Neural Mixture Guiding开源项目 – 加速路径追踪渲染的轻量级解决方案

Neural Mixture Guiding是一种基于GPU原型实现的神经参数混合引导技术，专为加速路径追踪渲染而设计，提供了高效的解决方案，特别适合用于GPU并行渲染，能够提升渲染速度和质量。

GPU并行渲染加速路径追踪渲染渲染效果优化神经参数混合引导技术

Qwen-VL-强大的视觉语言模型

阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型，结合了图像和文本输入，能够生成准确的文本和边界框输出，增强了图像描述、问答、定位和文本-图像理解等任务的能力。

图像定位图像描述生成文本-图像理解视觉语言模型

Qwen2-VL开源项目 – 多模态大模型，理解长视频与文档

Qwen2-VL开源项目 – 多模态大模型，理解长视频与文档

Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列，能够处理时长超过20分钟的视频，同时在文档理解方面表现出显著优势。该模型支持多模态输入，能够处理视频和文本数据，适用于多种应用场景。

信息提取图像处理多模态大模型文本翻译

Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement开源项目 – 通过静动态解耦的方法进行视频蒸馏

Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement开源项目 – 通过静动态解耦的方法进行视频蒸馏

该项目提出了一种通过静态和动态元素的解耦来进行视频蒸馏的方法，旨在从静态图像中提取视频信息，提升视频理解能力。

提高视频理解能力视频蒸馏静态动态解耦

AI no jimaku gumi开源项目 – AI字幕制作工具，简化字幕添加

AI no jimaku gumi开源项目 – AI字幕制作工具，简化字幕添加

AI no jimaku gumi 是一款利用人工智能技术为视频自动添加字幕的工具，能够有效简化翻译过程，显著提高字幕制作的效率，支持多种语言，适合各种用户使用。

AI字幕制作工具多语言字幕翻译用户友好的字幕工具自动字幕生成

OminiControl开源项目 – 通用扩散模型控制框架

OminiControl开源项目 – 通用扩散模型控制框架

OminiControl是一个极简且通用的控制框架，基于FLUX模型，专为高效控制扩散变换模型而设计。它通过仅增加0.1%的参数，无需改变基础模型结构，支持主体驱动控制和空间控制（如边缘引导和图像修复）。该框架适用于多种复杂视觉任务，包括边缘到图像、深度到图像、上色、去模糊和图像修复等。

上色去模糊图像修复图像处理

Implicit Nonlinear Diffusion Model开源项目 – 最大似然训练的隐式非线性扩散模型

Implicit Nonlinear Diffusion Model开源项目 – 最大似然训练的隐式非线性扩散模型

隐式非线性扩散模型的最大似然训练，旨在通过学习复杂数据分布来提升生成模型的性能。

图像处理最大似然训练生成模型隐式非线性扩散模型

Spatial Transformer Network (STN) with Thin Plate Spline (TPS)开源项目 – 基于TPS的空间变换网络

Spatial Transformer Network (STN) with Thin Plate Spline (TPS)开源项目 – 基于TPS的空间变换网络

该项目是一个基于PyTorch实现的Spatial Transformer Network (STN)，采用Thin Plate Spline (TPS)技术进行空间变换，能够灵活地对输入图像进行几何变换，支持高效的训练与推理。

PyTorch实现Thin Plate Spline图像配准图像预处理

DoubleTake开源项目 – 几何引导的深度估计

DoubleTake开源项目 – 几何引导的深度估计

DoubleTake 是一个几何引导的深度估计项目，旨在高效处理稀疏视图，以提升计算机视觉任务中的深度估计精度。

三维重建几何引导深度估计计算机视觉

Awesome-Diffusion-Model-Based-Image-Editing-Methods开源项目 – 基于扩散模型的图像编辑方法汇总

Awesome-Diffusion-Model-Based-Image-Editing-Methods开源项目 – 基于扩散模型的图像编辑方法汇总

一个关于基于扩散模型的图像编辑方法的文献汇总项目，旨在为研究人员和开发者提供全面的参考资料，涵盖各种图像编辑任务，包括生成、修复和转换，同时提供相关论文的链接与总结，确保信息的及时更新和获取最新研究成果。

图像修复图像生成图像转换基于扩散模型的图像编辑方法

MimicTalk开源项目 – 快速生成个性化的3D说话面孔

MimicTalk开源项目 – 快速生成个性化的3D说话面孔

MimicTalk是一个能在短时间内生成个性化和表现力丰富的3D说话面孔的项目，适用于各种实时应用场景。

3D说话面孔生成实时视频聊天虚拟角色创建

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

3D形状匹配DenseMatcher-3D语义匹配工具增强现实机器人抓取

ZoeDepth开源项目 – 深度学习生成3D模型的工具

ZoeDepth开源项目 – 深度学习生成3D模型的工具

ZoeDepth是一个利用深度学习技术从2D图像生成3D模型的工具，经过12个数据集的训练，专注于深度估计和3D模型生成。

2D到3D转换工具实时3D模型生成沉浸式3D环境创建深度学习生成3D模型

livestory开源项目 – 实时语音绘图工具

livestory开源项目 – 实时语音绘图工具

利用 AI 进行实时语音绘图的工具，通过语音输入生成图像，支持语音控制绘图。

AI生成图像实时语音绘图工具开源项目直播互动

LISA开源项目 – 语言与视觉模型结合的分割助手

LISA开源项目 – 语言与视觉模型结合的分割助手

LISA是一个将语言大模型（LLM）与其他视觉模型（如SAM）结合的分割助手，旨在根据复杂和隐含的查询文本输出分割掩码。

LISAzero-shot能力图像分割多轮对话

SaltAI_Language_Toolkit开源项目 – 增强ComfyUI的语言处理工具

SaltAI_Language_Toolkit开源项目 – 增强ComfyUI的语言处理工具

SaltAI_Language_Toolkit是ComfyUI平台的增强型语言处理工具，集成了检索增强生成（RAG）工具Llama-Index、微软AutoGen和LlaVA-Next，旨在提升平台的功能和用户体验，提供更高效的语言处理能力。

ComfyUISaltAI_Language_Toolkit多模态处理检索增强生成

MultiPly开源项目 – 通过视频重建3D图像

MultiPly是一个通过野外单目视频重建多人3D图像的项目，能够处理人物之间的遮挡和相互作用，使用先进的神经表征技术进行场景建模，并结合自监督的3D分割及可提示的2D分割模块，提供高效的人体姿势和形状优化。

3D图像重建动作捕捉增强现实多人互动分析

MVDD：多视角深度扩散模型-通过多视角深度模型生成高质量点云

MVDD利用多视角深度和扩散模型来表示复杂的三维形状，并将其映射到二维数据格式中。该模型能够生成高质量、密度较高的点云，包含细致的细节，点数可达20,000个以上。

三维形状建模动画制作图形设计增强现实

HouseCrafter开源项目 – 将平面图转为3D室内场景

HouseCrafter是一种新颖的方法，可以将平面图提升为完整的大型3D室内场景（例如房屋），通过先进的技术实现高质量的视觉效果和准确的空间布局。

3D模型生成室内设计可视化平面图转3D场景房地产可视化

无需注意力机制的扩散模型-以高分辨率处理图像的扩散模型

本文介绍了扩散状态空间模型，这是一种用更可扩展的状态空间模型作为基础的架构，取代了传统方法。这种方法可以有效处理更高分辨率的图像，而无需进行全局压缩，从而在整个扩散过程中保留了图像的详细表征。

图像生成无需注意力机制的扩散模型计算机视觉任务高分辨率图像处理

MiniCPM-o开源项目 – 手机上的多模态智能助手

MiniCPM-o开源项目 – 手机上的多模态智能助手

MiniCPM-o 是一款轻量级多模态大语言模型，具有8B参数，能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理，性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能，支持多语言和多模态实时流媒体处理，广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。

个性化语音助手多模态大语言模型多模态直播移动设备智能应用

Unified-IO 2-处理图像与语言的多模态模型

来自艾伦人工智能研究所（Allen Institute for AI）的新模型Unified-IO 2，能够处理图像和语言的多模态模型之一。

图像与语言处理多模态模型机器人交互联合理解

GFlow开源项目 – 动态4D场景重建框架

GFlow是一个从单目视频恢复4D世界的框架，旨在在没有相机参数和多视角视频输入的情况下重建动态4D场景。该项目利用2D先验信息（如深度和光流）将视频提升为4D显式表示，并能够在无监督的情况下从场景中分割移动物体，同时提供每帧的相机姿势以支持新视图渲染。

4D场景重建动态场景重建新视图渲染无监督学习

1 … 70 71 72 73 74 … 159

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3