AI图像工具 | 第 74 页 | AI-magic

AI图像工具

OpenEarthMap开源项目 – 全球土地覆盖数据集

OpenEarthMap开源项目 – 全球土地覆盖数据集

由5000张航空和卫星图像组成的数据集，包含了8类土地覆盖标签和220万个分割区域，覆盖了6大洲的44个国家的97个地区

全球土地覆盖数据集地理信息系统分析机器学习模型训练环境监测

Video Analyzer开源项目 – 视频内容分析工具

Video Analyzer开源项目 – 视频内容分析工具

视频内容分析工具，通过结合Llama3.2视觉模型和OpenAI的Whisper模型，本地生成视频描述，提供全面的视频分析解决方案。

Llama3.2视觉模型OpenAI Whisper模型视频内容分析工具视频描述生成

VisualGLM-6B开源项目 – 多模态对话语言模型

VisualGLM-6B开源项目 – 多模态对话语言模型

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，基于 ChatGLM-6B，具有 62 亿参数，整体模型共78亿参数。该模型可以在消费级显卡上本地部署，适用于多种视觉任务，具备生成诗歌、评论图像的能力，并且支持低显存需求的量化技术。

图像生成多模态对话语言模型自然语言处理视觉理解

FiT3D开源项目 – 通过3D微调提升2D特征表现

FiT3D开源项目 – 通过3D微调提升2D特征表现

FiT3D项目旨在通过3D感知的微调技术来增强2D特征表示，提升图像理解和识别的能力。该项目结合了深度学习和计算机视觉的前沿技术，致力于在多种视觉任务中实现更高的性能。

2D特征增强3D微调技术图像分类图像理解

NeuralClothSim开源项目 – 基于神经网络的服装模拟

NeuralClothSim开源项目 – 基于神经网络的服装模拟

NeuralClothSim结合了神经变形场和薄壳理论，实现了高效的服装模拟，能够生成逼真的服装动态效果，适用于动画、游戏和虚拟现实等多个领域。

动画生成神经网络服装模拟虚拟现实服装动态效果

Moondream 2b官网 – 本地大模型验证码测试工具

Moondream 2b 是一个本地大模型竞技场的追加测试工具，专注于验证码测试，尤其适合方向旋转类型的验证码识别。它通过高准确率的算法，帮助用户快速有效地处理验证码任务。

方向旋转验证码本地大模型验证码测试工具验证码识别高准确率算法

ComfyUI PhotoMaker开源项目 – 高效的图像处理工具

ComfyUI PhotoMaker开源项目 – 高效的图像处理工具

ComfyUI PhotoMaker是ComfyUI的非官方实现，支持本地模型、自定义尺寸、3倍提速以及多图直接输入，旨在提高图像处理的效率和灵活性。

ComfyUI图像处理工具多图处理提速功能

Semi-Supervised Video Semantic Segmentation with Inter-Frame Feature Reconstruction开源项目 – 利用帧间特征重建进行视频语义分割

Semi-Supervised Video Semantic Segmentation with Inter-Frame Feature Reconstruction开源项目 – 利用帧间特征重建进行视频语义分割

该项目提供了一种视频语义分割的方法，利用帧间特征重建技术，在半监督学习的框架下提升模型性能，适用于缺乏标注数据的场景。

半监督学习帧间特征重建模型性能提升视频语义分割

LlamaV-o1开源项目 – 大型多模态模型，支持自发推理

LlamaV-o1开源项目 – 大型多模态模型，支持自发推理

LlamaV-o1是一个大型多模态模型，能够进行自发推理。在VCR-Bench基准测试中表现优异，超越了多个知名模型，如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展，使用Beam Search提升效率，特别适合复杂的多步视觉推理任务，具备高准确性和高效率。

Beam SearchLlamaV-o1VCR-Bench多模态模型

TransPixar开源项目 – 生成透明背景视频的大模型

TransPixar 是一个可以生成透明背景视频的大模型，能够生成一个 RGB 视频和一个 Alpha 通道视频，便于在使用蒙版时任意叠加背景。

Alpha通道视频Hugging Face体验视频后期制作透明背景视频生成

DragGAN官网 – 拖拽操作图像的新高度

DragGAN 正式发布，令人震惊的'拖拽你的图像'功能可是达到了图像操作的新高度，用户可以通过简单的拖拽方式直接对图像进行高质量的生成和编辑，实时反馈使得操作更加流畅，用户友好的界面设计提升了使用体验。

图像编辑工具实时图像处理用户友好的图像操作高质量图像生成

VGGSfM开源项目 – 基于运动的视觉几何深层结构

VGGSfM开源项目 – 基于运动的视觉几何深层结构

VGGSfM是基于运动的视觉几何深层结构，旨在从输入图像中提取2D轨迹，通过图像和轨迹特征重建摄像机，初始化点云并应用捆绑调整层进行重建细化。

3D重建CVPR24挑战赛摄像机姿势估计深度学习

I2VGen-XL开源项目 – 基于图像生成高清视频的模型

I2VGen-XL开源项目 – 基于图像生成高清视频的模型

I2VGen-XL是一个基于输入图像生成高清视频的模型，由阿里云达摩院研发，具有良好的泛化性和优越的生成效果。

内容生成图像生成视频模型短视频创作视频生成应用

Segment Anything-通用图像分割模型

在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试，并系统研究了在SA-1B上定义的交互分割任务和其他分割任务（如全景分割和部件分割）上多任务联合训练的相互促进作用。

增强现实多粒度图像分割物体识别自动化图像标注

ComfyUI-IDM-VTON开源项目 – 基于ComfyUI的虚拟试穿助手

ComfyUI-IDM-VTON开源项目 – 基于ComfyUI的虚拟试穿助手

ComfyUI虚拟试穿助手：基于ComfyUI平台的IDM-VTON技术适配，实现虚拟试穿功能，帮助用户在不同场景下快速预览服装效果，提升在线购物体验

ComfyUIIDM-VTON技术在线购物体验用户友好的界面

OperateGPT开源项目 – 智能运营文案生成工具

OperateGPT开源项目 – 智能运营文案生成工具

利用大语言模型和多智能体技术，通过一行需求自动生成运营文案、图片和视频，一键发送多个平台实现快速运营的变革。

多平台内容发布大语言模型应用媒体生成工具自动生成运营文案

HRS-Bench开源项目 – 全面可靠的文本到图像模型基准

HRS-Bench开源项目 – 全面可靠的文本到图像模型基准

HRS-Bench 是一个全面、可靠且可扩展的基准，专为评估文本到图像模型而设计。它提供了多种性能指标，确保在不同模型规模下的可扩展性和可靠性。

文本到图像模型基准模型性能评估生成模型比较

Glyph-ByT5开源项目 – 定制的多语言视觉文本编码器

Glyph-ByT5开源项目 – 定制的多语言视觉文本编码器

Glyph-ByT5是一个定制的文本编码器，旨在实现准确的多语言视觉文本渲染，特别是在平面设计图像中。

多语言视觉文本编码器字形文本生成平面设计文本渲染

MixNeRF开源项目 – 从稀疏输入合成新视图

MixNeRF开源项目 – 从稀疏输入合成新视图

MixNeRF是一个模型，通过混合密度建模来实现从稀疏输入生成新视图的合成。

从稀疏输入生成新视图混合密度建模视觉内容创作

ComfyUI-Lotus开源项目 – 简化深度与法线预测的用户界面

ComfyUI-Lotus开源项目 – 简化深度与法线预测的用户界面

为Lotus深度/法线预测提供的舒适用户界面节点，主要功能是将复杂的深度和法线预测技术通过用户友好的界面简化，方便非专业人士也能轻松使用

法线预测深度预测用户友好的界面非专业人士使用

Ollama OCR开源项目 – 强大的离线OCR工具

Ollama OCR开源项目 – 强大的离线OCR工具

一款强大且可离线使用的OCR工具，支持多种视觉模型，并能够处理多种文件格式输出。

多文件格式输出并行处理图像文本提取离线OCR工具

GAIA开源项目 – 从图像和声音生成会说话的化身

GAIA是一个可以从单个肖像图像和语音片段生成会说话的化身的人工智能项目。它支持通过文字提示来指导视频生成。

个性化虚拟化身从图像生成视频动态角色生成在线教学化身

VLM-Visualizer-视觉开源项目 – 语言模型注意力可视化工具

VLM-Visualizer-视觉开源项目 – 语言模型注意力可视化工具

VLM-Visualizer是一个视觉-语言模型注意力可视化工具，旨在通过结合语言模型和视觉变换器的注意力权重，生成输入图像上的注意力图，以直观展示模型在生成特定令牌时关注图像的哪些部分。

模型分析注意力可视化工具视觉-语言模型输入图像注意力图

Pix2Text开源项目 – 高效的图像文本识别工具

Pix2Text开源项目 – 高效的图像文本识别工具

Pix2Text 是一个用于将图像中的文本和数学公式转换为可编辑格式的工具，支持 80+ 种语言的识别，提供高精度的识别模型，优化了识别逻辑和输出格式，增强了用户体验。

图像文本识别工具开源项目教育工具数学公式识别

FlowDCN开源项目 – 快速生成任意分辨率图像

FlowDCN开源项目 – 快速生成任意分辨率图像

FlowDCN是一个探索类似DCN架构的项目，旨在快速生成任意分辨率的图像。该项目利用先进的深度学习技术，提供高效的图像生成解决方案，适用于各种应用场景，包括艺术创作、游戏设计等。

任意分辨率图像生成快速图像生成深度学习图像生成游戏设计

Stable Diffusion with Core ML on Apple Silicon开源项目 – 在Apple Silicon上使用Stable Diffusion生成图像

Stable Diffusion with Core ML on Apple Silicon开源项目 – 在Apple Silicon上使用Stable Diffusion生成图像

利用该项目你可以在你的iOS或macOS应用程序中使用Stable Diffusion生成图像。

Apple SiliconCore MLiOS应用macOS应用

Key2Mesh开源项目 – 仅用2D关键点重建3D人体网格

Key2Mesh 仅利用 2D 人体姿势关键点作为输入来进行 3D 人体网格重建。该项目支持大规模运动捕捉数据集的训练，并且不依赖于视觉数据的 3D 标签，通过对抗域适应方法提高在 RGB 图像上的性能。其运行速度比之前最先进的模型快 12 倍，极大提升了重建效率。

2D关键点3D人体网格重建对抗域适应运动捕捉数据集

diffusers-webui开源项目 – 基于Gradio的Stable Diffusion图像生成界面

diffusers-webui开源项目 – 基于Gradio的Stable Diffusion图像生成界面

diffusers-webui是一个基于Gradio构建的Web用户界面，旨在与Stable Diffusion的Diffusers格式协同工作，提供简单易用的图像生成体验。用户可以通过图形界面轻松上传模型、调整参数，并实时预览生成的图像。

Diffusers格式支持Stable Diffusion图像生成基于Gradio的图像生成界面实时图像预览

SeedEdit官网 – 一款免费的 AI 图像编辑器

SeedEdit 是一款免费的 AI 图像编辑工具，用户可以通过简单的提示来轻松编辑图像。它具有友好的界面，使得图像编辑变得更加直观和便捷。

AI图像编辑工具免费图像编辑器用户友好的图像编辑

LoRA inspector开源项目 – 用于Stable Diffusion的LoRA模型检查工具

LoRA inspector开源项目 – 用于Stable Diffusion的LoRA模型检查工具

LoRA inspector是一个专为Stable Diffusion设计的工具，旨在可视化和评估Low-Rank Adaptation（LoRA）模型的性能。它提供了用户友好的界面，支持多种文件格式的导入和导出，方便用户快速比较不同模型的效果，帮助用户选择最佳的模型配置以提升生成效果。

LoRA模型检查工具Stable Diffusion可视化工具模型性能评估

1 … 72 73 74 75 76 … 159

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3