AI图像工具 | 第 77 页

MagicAnimate 是一个基于扩散模型的框架，旨在通过一张照片和骨骼动画生成时间连贯的人像动画视频。它专注于提高时间连贯性、忠实地保留参考图像以及提升动画的真实感。项目提供了创新的外观编码器和视频融合技术，确保长视频动画的平滑过渡，并在 TikTok 舞蹈数据集上，视频真实度比基线提高了超过 38%。此外，MagicAnimate 还提供了 Gradio 演示，支持本地和在线测试。

0

AI生成舞蹈视频工具深度学习舞蹈视频生成舞蹈风格视频生成

AnyControl开源项目 – 一种新的文本到图像引导方法

AnyControl 是一种新的文本到图像的引导方法，可以从各种控制信号（例如颜色、形状、纹理和布局）生成图像。

0

控制信号图像合成文本到图像生成艺术创作工具

SuperClass-视觉开源项目 – 语言预训练分类的最佳实践

SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目，通过整合视觉和语言模态，优化预训练任务的性能。

0

分类准确性优化多模态AI研究视觉语言预训练

Anything To Image开源项目 – 从任意内容生成图像的工具

利用ImageBind和Stable Diffusion相结合，从任意内容生成图像的工具。该工具无需进行训练，通过统一潜空间和Stable Diffusion技术实现图像生成，支持多种输入方式，能够生成高质量的视觉内容。

0

Huggingface GradioStable Diffusion从音频生成图像图像生成工具

FitDiT开源项目 – 高保真的AI虚拟试穿模型

FitDiT是一个高保真的AI虚拟试穿开源模型，支持用户虚拟更换服装并自动添加区域蒙版，能够为用户提供真实的试穿体验，帮助用户在购买前更好地了解服装效果。

0

AI虚拟试穿模型开源虚拟试穿工具高保真试穿体验

sd-webui-animatediff开源项目 – 支持通过提示词改变动画内容

AnimateDiff 是一个增强动画生成的工具，允许用户通过提示词（prompt）来调整和控制动画的内容，新增支持提示词旅行（prompt travel），并集成于Web用户界面，易于使用且与其他动画工具兼容。

0

Web用户界面动画工具动画生成工具提示词控制动画

GPT4V-Image-Captioner开源项目 – 多功能图像处理工具箱

用Gradio构建的多功能图像处理工具箱，可以使用GPT-4-vision API或cogVLM模型对图像进行标记。

0

cogVLM模型GPT-4-vision API关键词过滤图像预压缩

sd-webui-depth-lib开源项目 – 深度图生成库

这是一个用于Automatic1111/stable-diffusion-webui的Control Net扩展的深度图生成库，提供了优化的性能和用户友好的接口。

0

Control Net扩展Stable Diffusion模型图像处理深度图生成库

imgfind开源项目 – 高效的图像搜索工具

imgfind是一个基于Rust、candle和CLIP构建的图像搜索工具，旨在提供高性能的图像检索体验。它利用深度学习技术和CLIP模型，支持多种图像格式，并具备用户友好的命令行界面，适用于各种图像搜索需求。

0

CLIP模型Rust编写命令行界面图像搜索工具

HunyuanDiT开源项目 – 中文原生DiT架构文生图模型

HunyuanDiT是腾讯混元发布的文生图大模型，首个中文原生的DiT架构文生图开源模型。它支持中英文双语输入及理解，提供LoRA小规模数据集训练方案与可控制插件ControlNet。该模型通过专属加速库显著缩短生图时间，支持微调和个性化模型创建，并基于ComfyUI的图形化界面或Hugging Face Diffusers通用模型库调用。

0

双语生成能力多轮对话文本到图像生成细粒度语义理解

zerox开源项目 – 零样本PDF文档的OCR转换工具

使用gpt-4o-mini实现零样本PDF文档的OCR转换，为AI处理提供简洁的Markdown格式输出，优化了文档的视觉呈现和信息提取。

0

AI文档处理Markdown格式输出PDF文档转换零样本OCR转换工具

Segment Anything Fast开源项目 – 高效的图像分割工具

Segment Anything Fast 是一个面向批量离线推断的高效图像分割工具，基于PyTorch实现，旨在提供快速、便捷的图像分割解决方案，适合在本地环境中使用。

0

PyTorch实现批量离线推断预训练模型高效图像分割工具

diffusers-rs开源项目 – 高性能的Diffusers API

diffusers-rs是一个基于Rust和Torch的Diffusers API，旨在提供高性能的图像生成和模型推理功能。它支持多种预训练模型，并提供易于扩展和自定义的架构，适合在机器学习工作流中使用。