AI图像工具 | 第 68 页 | AI-magic

AI图像工具

Story-Adapter开源项目 – 无训练的长故事可视化框架

Story-Adapter开源项目 – 无训练的长故事可视化框架

Story-Adapter是一个无需训练的迭代框架，旨在通过优化生成连贯的故事画面，从而增强故事讲述的生动性和趣味性。该框架特别适合长篇故事的可视化展示，帮助用户更好地理解和体验故事内容。

故事创作辅助工具教育和娱乐故事展示无需训练的可视化框架长故事可视化

3DTopia开源项目 – 几分钟内通过文本生成3D模型

3DTopia开源项目 – 几分钟内通过文本生成3D模型

3DTopia AI，几分钟可通过文本快速创建整个3D电影场景，来自上海人工智能实验室。该项目使用两阶段生成模型，首先通过扩散模型快速生成候选3D场景，然后细化选定素材，以实现高质量的3D内容创作。

3D内容创作工具AI辅助3D建模文本生成3D模型

diffuzers开源项目 – 一个友好的扩散模型Web界面

diffuzers开源项目 – 一个友好的扩散模型Web界面

diffuzers是一个用于🤗扩散模型的Web用户界面，致力于为用户提供简单易用的工具，以便轻松创建和处理图像。它支持多种扩散模型，用户可以实时预览生成的结果，并且能够与其他工具进行无缝集成。

图像参数调整实时图像生成扩散模型Web界面用户友好的图像处理工具

WebGPU-SAM2开源项目 – 浏览器中的图像分割工具

WebGPU-SAM2开源项目 – 浏览器中的图像分割工具

WebGPU-SAM2是一个利用WebGPU技术在浏览器中实现的图像分割工具，可以完全在客户端运行，保护用户数据隐私，基于Facebook Research的Segment Anything 2模型，无需服务器处理。

WebGPU图像分割工具客户端图像处理数据隐私保护

Hunyuan3D-2开源项目 – 高效生成高质量3D资产

Hunyuan3D-2开源项目 – 高效生成高质量3D资产

腾讯推出的高分辨率3D资产生成工具，能通过图片或文字生成高质量的3D模型和纹理，让3D创作变得简单高效

3D模型生成3D纹理生成动画制作游戏开发

MASA开源项目 – 通过分割任意内容匹配任意内容

MASA开源项目 – 通过分割任意内容匹配任意内容

Matching Anything By Segmenting Anything（通过分割任意内容匹配任意内容），是一种用于稳健实例关联学习的新方法，能够在不同领域中匹配视频中的任何对象而无需跟踪标签。

多对象跟踪实例关联学习对象检测零样本跟踪

Vary-toy-小型Vary模型，提升视觉信息编码能力

Vary-toy是一个基于Qwen-1.8B的小型Vary模型，引入了改进的视觉词汇，使模型具有更高的普适性和更好的视觉信息编码能力。

ChartQADocVQAMMVetRefCOCO

SurgicalSAM开源项目 – 高效的手术工具分割

SurgicalSAM开源项目 – 高效的手术工具分割

SurgicalSAM是一个高效的手术工具分割项目，支持类提示，旨在提升手术视频分析和医疗图像处理的效率。

医疗图像处理手术工具分割手术视频分析类提示

ee-diffusion开源项目 – 加速扩散模型生成样本

ee-diffusion开源项目 – 加速扩散模型生成样本

一种用于加速扩散模型采样的简单早退框架，主要功能是显著加速生成样本的过程而不牺牲生成样本的质量。

加速扩散模型早退框架生成样本高效采样

FocalClick开源项目 – 实用的交互式图像分割

FocalClick开源项目 – 实用的交互式图像分割

FocalClick是一个旨在实现实际交互式图像分割的项目，能够在真实场景中应用，为用户提供高效的图像对象分割功能。

交互式图像分割内容创作视频编辑

黑镜成真：眼球反射解锁3D世界开源项目 – 通过眼球反射探索3D世界

人类眼睛的反射性是了解周围世界的一种尚未被充分开发的来源。通过拍摄运动中的人的眼睛，我们可以通过眼睛的反射收集场景中多个视角的画面，这些画面是通过相机直接拍摄无法得到的。

3D场景重建图像处理眼球反射分析计算机视觉

Carve3D开源项目 – 提升扩散模型的多视图重建一致性

Carve3D开源项目 – 提升扩散模型的多视图重建一致性

Carve3D项目旨在通过强化学习微调，提高扩散模型在多视图重建中的一致性，适用于3D模型生成和场景视觉一致性的改善。

3D模型生成多视图重建强化学习视觉一致性

echomimic_v2开源项目 – 升级版数字人生成工具

echomimic_v2开源项目 – 升级版数字人生成工具

echomimic_v2 是 echomimic 的升级版本，从数字脸升级到数字人，支持通过输入图像、音频和手势生成高度逼真的数字人。该工具集成了音频处理和手势输入，增强了交互体验，适用于虚拟主播、虚拟助手、教育、娱乐等多种场景。

动作表现力半身人物动画游戏角色动画表情与肢体动作同步

Stable Fast 3D官网 – 快速将图像转换为3D素材

Stable Fast 3D是由Stability AI推出的一项3D生成技术，能够以极快的速度将单个输入图像转换为详细的3D素材，适用于多个图形密集型行业。

3D生成技术Hugging Face模型建筑设计快速图像转换

Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis开源项目 – 无训练的语义绑定方法

Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis开源项目 – 无训练的语义绑定方法

一种在文本到图像合成中实现语义绑定的方法，无需进行训练。

提高生成图像的语义准确性文本到图像合成无训练的语义绑定

Trolo开源项目 – 结合Transformers与YOLO的深度学习框架

Trolo开源项目 – 结合Transformers与YOLO的深度学习框架

一个将Transformers与YOLO及其他单阶段检测器(SSD)结合的深度学习框架，提供高性能推理和便捷的CLI接口。支持D-FINE等先进模型，具备视频流推理、自动分布式训练等特性。适用于需要transformer增强的目标检测任务，提供Python API和Docker部署支持。

Docker部署Python APITransformers与YOLO结合深度学习框架

MotionGPT官网 – 通用运动生成器，助力游戏开发

MotionGPT通过微调大型语言模型(LLM)实现运动生成，专为游戏开发而设计，能够生成多种类型的运动动画，并支持实时生成，提升游戏及VR应用的体验。

动作生成工具动画制作游戏开发虚拟现实应用

GraphRAG Visualizer开源项目 – 可视化和探索GraphRAG数据的工具

GraphRAG Visualizer开源项目 – 可视化和探索GraphRAG数据的工具

GraphRAG Visualizer是一个Web工具，用于可视化和探索微软GraphRAG框架生成的数据。它支持2D和3D图形的可视化，数据表格展示以及强大的搜索功能。用户可以上传由GraphRAG索引管道生成的parquet文件，并本地查看和分析数据，包括文档、文本单元、社区、协变量等节点及其关系。

2D/3D图形展示GraphRAG数据可视化工具parquet文件上传数据分析

gen-cv开源项目 – 文本转语音头像项目

gen-cv开源项目 – 文本转语音头像项目

微软的文本转语音头像项目，允许用户通过文本输入创建会说话的头像视频，构建实时交互式机器人。

TTS音频合成头像视频生成实时交互式机器人文本转语音

FastSAM开源项目 – 快速分割，性能卓越，速度极快

FastSAM开源项目 – 快速分割，性能卓越，速度极快

FastSAM是一个基于CNN的图像分割项目，具有与Facebook提出的SAM相似的性能，但在运行速度上提高了50倍，适用于各种图像分割任务，易于集成和使用。

CNN算法实时视频分析快速图像分割深度学习应用

Awesome Segment Anything Extensions开源项目 – 与Segment Anything相关的优秀扩展

Awesome Segment Anything Extensions开源项目 – 与Segment Anything相关的优秀扩展

该项目收录了多种与Segment Anything Model (SAM)相关的扩展和项目，提供了社区贡献的资源和工具，涵盖了不同领域的应用实例，旨在为用户提供丰富的参考和支持。

Segment Anything Model扩展应用实例最佳实践社区贡献工具

InfiniteRep开源项目 – 健身与理疗的完美视觉数据集

InfiniteRep开源项目 – 健身与理疗的完美视觉数据集

这是一个专为健身和物理治疗应用设计的高质量视觉数据集，包含多样化的数据样本，支持机器学习和计算机视觉研究。

健身AI模型训练动作分析姿势识别物理治疗效果评估

SDXL Turbo官网 – 实时文本到图像生成模型

SDXL Turbo 是一款实时文本到图像生成模型，通过新的蒸馏技术实现了最先进的性能，能够以前所未有的质量生成单步图像。

Clipdrop平台实时文本到图像生成蒸馏技术高质量图像生成

AnimateDiff-Lightning官网 – 闪电般快速的文本到视频生成模型

一种闪电般快速的文本到视频生成模型，使用渐进式对抗扩散蒸馏技术，生成速度比原始 AnimateDiff 快十倍以上。

开源视频生成工具快速视频生成文本到视频生成模型高质量视频生成

TinyCLIP开源项目 – CLIP模型的蒸馏与优化

TinyCLIP开源项目 – CLIP模型的蒸馏与优化

TinyCLIP通过亲和模仿和权重继承技术，优化CLIP模型的蒸馏过程，提升小型模型在视觉任务中的表现，并支持多模态应用的迁移学习。

CLIP模型蒸馏TinyCLIP多模态应用视觉任务优化

stable-diffusion开源项目 – 本地深度学习图像生成工具

stable-diffusion开源项目 – 本地深度学习图像生成工具

本地部署全功能版stable diffusion，支持多种配置和功能，适用于深度学习图像生成任务。该项目允许用户在本地环境中生成高质量的图像，支持多种输入方式和参数设置，能够满足不同的生成需求。

Stable Diffusion图像生成图片转换本地深度学习图像生成工具

Generalizable and Animatable Gaussian Head Avatar开源项目 – 创建可泛化和动画化的头像

该项目专注于创建可泛化和动画化的高斯头部头像，旨在为虚拟现实和游戏应用提供个性化的虚拟形象。

动画化头像可泛化头像生成游戏应用头像虚拟现实头像

Imagic Stable Diffusion开源项目 – 基于文本的图片编辑复现

Imagic Stable Diffusion开源项目 – 基于文本的图片编辑复现

Imagic Stable Diffusion 是一种基于文本提示的图像生成和编辑工具，能够高效地将用户的文字描述转化为高质量的图像。该项目支持多种图像生成模式，并且开放源代码，用户可以轻松进行自定义和扩展。

开放源代码图像工具文本驱动的图像生成高质量图像编辑

Depth Pro开源项目 – 快速生成清晰深度图的基础模型

Depth Pro开源项目 – 快速生成清晰深度图的基础模型

Depth Pro 是一个基础模型，用于零样本度量单目深度估计，能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据，利用高效的多尺度视觉变换器，提供高分辨率和准确的深度测量，适用于各种视觉任务。

单目深度估计增强现实多尺度视觉变换器机器人导航

diffusion-speedrun开源项目 – 极简图像处理与模型训练工具

diffusion-speedrun开源项目 – 极简图像处理与模型训练工具

一个极简的图像处理和GPT/Diffusion模型训练工具，专注于快速实验和简洁操作，提供从初始化到图像生成的高效路径

Diffusion模型训练GPT模型训练快速实验优化极简图像处理工具

1 … 66 67 68 69 70 … 159

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3