AI图像工具 | 第 80 页

Hallo3 是复旦大学与百度联合开源的高动态与真实感肖像动画生成框架，基于扩散变换器网络(Diffusion Transformer Networks)，能够生成高度动态和逼真的视频。该项目支持处理非正面视角的肖像动画，渲染肖像周围的动态物体，生成沉浸式逼真背景，并具备强大的泛化能力。通过身份参考网络确保视频序列中的面部身份一致，支持语音音频驱动的连续视频生成。

0

动态数字人头像生成沉浸式背景生成逼真视频生成非正面视角处理

NVIDIA Omniverse 3D Conditioning开源项目 – 提升3D场景创作的灵活性与效率

通过实时渲染和生成式AI输出，提升高质量3D场景创作的灵活性和效率，而不影响核心产品资产。

0

3D场景创作3D工作流程集成创作效率提升实时渲染

Tencent-Hunyuan-Large开源项目 – 腾讯推出的大型MoE模型

Hunyuan-Large是腾讯推出的大型MoE（Mixture of Experts）模型，拥有3890亿参数和520亿激活参数，是业界目前最大的开源Transformer基础MoE模型，专注于自然语言处理和长文本理解。

0

MoE模型对话系统文本生成智能客服

GPT-SoVITS开源项目 – 中文语音克隆，1分钟可训练TTS模型

GPT-SoVITS 是一个适用于中文的语音克隆项目，能够通过短时间的语音数据训练出高质量的文本到语音（TTS）模型。仅需1分钟的语音数据即可进行有效的模型微调，支持多语言推理，并提供易于使用的Web界面，适合初学者创建和管理训练数据集。

0

Few-shot TTSTTS模型训练WebUI工具中文语音克隆

draw-fast开源项目 – 高效流畅的绘图工具

draw-fast是tldraw的高效绘图工具，借助GPT4-V的智能能力，提供快速而流畅的绘图体验，适用于多种场景，支持实时协作，极大提升了用户的绘图效率和体验。

0

原型设计在线绘图实时协作教育可视化

inpaint-web开源项目 – 高效图像修复工具

inpaint-web是一个高效的图像修复工具，能够处理大尺寸图像，并提供多种实用功能，帮助用户轻松修复和编辑图像。

0

图像编辑大尺寸图像处理滑动对比功能高效图像修复工具

Follow-Your-Click开源项目 – 通过简短提示进行开放域区域图像动画

Follow-Your-Click 是一款允许用户通过简短的提示和单击指定区域来创建动画效果的工具。它支持多种动作表达，利用先进的技术提高视频生成质量，并增强模型对短提示的跟随能力。

0

动画生成工具图像动画用户交互动画视频制作

ReSyncer开源项目 – 统一视听同步的面部表演生成器

ReSyncer 是一个基于风格重构的工具，能够生成高保真的视听同步面部表演者，支持快速个性化微调，适用于各种视频内容创作。

0

个性化面部表情动画角色口型同步虚拟主持人视频内容创作

diffusers开源项目 – 高性能的扩散模型实现

Huggingface Diffusers的OneFlow移植版，比PyTorch版性能更高，支持多种扩散模型，易于集成与使用。

0

OneFlow实现图像生成与编辑自定义模型训练预训练模型加载

AnyText开源项目 – 多语言视觉文本生成与编辑

AnyText 是一款支持多语言的视觉文本生成与编辑工具，能够用AI生成或编辑图片中的文字，并与图片风格保持一致，尤其支持中文。它基于扩散模型，集成了辅助潜在模块和文本嵌入模块，使用先进的训练技术，提供了大规模多语言文本图像数据集 AnyWord-3M。

0

AI文本编辑工具AnyWord-3M数据集多语言视觉文本生成扩散模型

GPT Assistant开源项目 – ChatGPT 安卓客户端

GPT Assistant 是一个功能强大的安卓客户端，支持用户通过语音、文字和图像与 ChatGPT 进行互动，提供便捷的聊天体验。

0

ChatGPT 安卓客户端图像聊天文字聊天语音聊天

ControlNeXt开源项目 – 可控图像和视频生成的强大工具

ControlNeXt 是一种可控视频和图像生成方法，支持多种形式的控制信息，参数减少高达90%，实现更快的收敛速度和出色的生成效率。该项目提供了与 ControlNet 相比更高效的训练方式，并能够与其他 LoRA 技术无缝集成。

0

LoRA集成可控图像生成可控视频生成训练参数优化

God app开源项目 – 一个整合多种生成AI的应用

将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中，只需一个提示，即可完成所有需求

0

AI整合应用图像生成自然语言处理视频生成

Awesome Multimodal Prompts开源项目 – 全面利用多模态能力的提示

该项目提供针对GPT-4V和DALL-E3的多模态提示，旨在增强多模态模型的功能，促进跨模态的生成和理解，同时支持各种应用场景的提示设计。

0

DALL-E3GPT-4V多模态提示提示设计

Comic Translate开源项目 – 漫画自动翻译神器

一个开源的漫画自动翻译神器，利用 GPT-4 Vison 实现一键自动识别并翻译，支持多种格式和语言之间的互译。

0

GPT-4 Vison多语言翻译开源项目漫画自动翻译工具

sd-webui-colab开源项目 – 便捷的图像生成工具

sd-webui-colab是一个用于维护stable-diffusion-webui在Google Colab上版本的项目，提供用户友好的界面和多种图像生成模型，方便用户进行图像创作和风格迁移。

0

Google Colab图像生成工具用户友好的界面风格迁移

Nutlope/logocreator开源项目 – AI驱动的免费Logo生成器

Nutlope/logocreator是一个完全免费开源的AI驱动的Logo生成器，能在几秒钟内创建出专业级的标志，支持自定义风格，满足个性化需求，用户可以自由使用并参与改进。

0

AI驱动的Logo生成器个性化Logo设计免费开源Logo工具高分辨率Logo输出

DiffSynth Studio开源项目 – 开源Diffusion引擎，支持多种生成任务

DiffSynth Studio是一款开源的Diffusion引擎，重构了包括Text Encoder、UNet、VAE等在内的架构，在增强计算性能的同时保持了与开源社区模型的兼容性。它支持多种生成任务，包括长视频合成、高分辨率图像生成、卡通着色、视频风格化等，并且支持中文模型和多种模型的微调。此外，它还提供了无需本地部署的Colab运行笔记，方便用户一键动漫化视频。

0

Colab运行一键动漫化视频开源项目视频效果编辑

meta-prompts开源项目 – 利用元提示优化视觉感知

meta-prompts是一种利用扩散模型处理视觉感知任务的方案，通过引入可学习的元提示到预训练的扩散模型中，以提取适合特定感知任务的特征。该方法旨在提高模型在各种视觉任务中的表现，支持丰富的语义信息提取，满足类别识别、深度感知和关键点感知等需求。

0

元提示优化图像理解定制化训练扩散模型

SD4J (Stable Diffusion in Java)开源项目 – Java中的稳定扩散推理工具

基于ONNX Runtime的Java的Stable Deffusion管线，具有GUI界面和负面文本支持，展示了如何在Java中使用ONNX Runtime进行推理，并提供了性能优化的最佳实践

0

GUI图像生成Java中的稳定扩散推理工具ONNX Runtime性能优化

Meta Vision开源项目 – 智能眼镜与图像识别的结合

利用Meta Rayban Smart Glasses智能眼镜与GPT-4 Vision集成的实验性尝试，旨在实现实时图像处理和增强现实功能，适用于多种应用场景如教育、医疗和娱乐领域。

0

GPT-4 Vision图像识别增强现实实时图像处理

Ocrs开源项目 – 现代化的高性能OCR引擎

用Rust编写的现代OCR引擎，可以作为一个命令行工具和库来使用，目标是创建一个在各种图像上都能良好运行的OCR引擎，包括扫描文档、包含文本的照片和屏幕截图等，较之前的引擎如Tesseract，需要更少的预处理工作。

0

Rust编写的OCR工具命令行OCR工具文本提取工具高性能OCR引擎

Fast Stable Diffusion CPU开源项目 – 高效快速的CPU图像生成

Fast Stable Diffusion CPU是一款专为CPU优化的快速稳定扩散模型，在Core i7-12700上生成一张512x512的图片仅需21秒，具有优越的性能和广泛的兼容性，适合各种计算环境。

0

CPU优化图像生成快速图像生成批量图像生成艺术创作工具

Ruined Fooocus开源项目 – 辅助制作Kris Wu写真照的工具

Ruined Fooocus是一款兼容多种Flux Checkpoints的工具，旨在帮助用户制作Kris Wu (Wu Yi Fan) 的写真照。该工具支持Civitai.com的checkpoint和LORAs，并提供AI推荐功能，以帮助用户选择合适的checkpoint和LORAs，从而节省试错时间，提高制作效率。

0

AI推荐功能Civitai.com支持Flux CheckpointsKris Wu写真照制作工具

EcoAssist开源项目 – 简化生态学家处理相机陷阱图像的工具

EcoAssist是一个开源应用，旨在简化生态学家处理相机陷阱图像的工作。它提供了自动物种检测的自定义模型标注、训练和部署功能，能够显著节省图像审查时间，从而帮助生态学家更好地专注于保护工作。

0

开源应用机器学习模型训练生态学图像处理自动物种检测