AI图像工具 | 第 83 页

XTalker开源项目 – 快速面部动画生成工具

XTalker是基于SadTalker的面部动画生成项目，专为第四代Xeon CPU优化，通过低精度推理和并行处理将推理速度提升10倍，旨在实现高效的面部动画生成。

0

实时视频应用游戏角色动画虚拟现实动画面部动画生成工具

Human Motion Diffusion Model开源项目 – 基于扩散模型的人体运动生成

《人体运动扩散模型》的论文代码，旨在高效生成和编辑人体运动，支持多种运动风格和动作捕捉数据。

0

人体运动生成动作捕捉数据动画制作扩散模型

edge-tts开源项目 – 为电子书提供有声书服务

edge-tts是一个工具，能够将任何epub书籍转换为有声书，使用微软的Edge TTS引擎生成语音，支持多种语言和语音选项，用户可以自定义语速和音调，提供简单易用的命令行界面，帮助用户节省在Audible上的开支。

0

Edge TTS语音生成命令行界面工具电子书有声书转换工具自定义语速和音调

Surya开源项目 – 多语言OCR与布局分析工具

Surya 是一款开源且强大的文档 OCR 工具，专注于文档图像的处理和分析。它支持 90 多种语言的文本检测与识别，包括中文、英文、日语、阿拉伯语等复杂语种。Surya 具备高效的布局分析能力，能够准确识别文档中的每一行文字，并支持复杂排版的阅读顺序检测。此外，它还支持表格、图像、标题等元素的检测，并且在非拉丁语系文档处理中表现优异，处理速度比 Tesseract 快 3 倍。

0

多语言文档OCR工具开源OCR工具文本识别文档图像处理

人脸生成-通过文本提示生成不同年龄人脸

纽约大学的研究人员提出了一种通过隐扩散模型保留不同年龄身份特征的方法，并且只需要少样本训练，即可直观地用「文本提示」来控制模型输出。

0

人脸生成少样本训练年龄特征保留文本提示控制

Genmo AI官网 – AI创意助手，生成视频与图像

Genmo是一个前沿的AI工具，旨在简化视频和图像的创作过程。用户只需输入文本或图像，便可轻松生成高质量的视频内容，适合内容创作者、市场营销人员、教育工作者等各类用户。

0

AI图像创作助手AI视频生成工具内容创作工具视频制作简化工具

Finegrain开源项目 – 智能抠图模型

Finegrain是一个抠图模型，支持通过提示词或框选主体进行抠图。用户可以灵活选择抠图方式，适用于各种图像处理场景，提供高质量的抠图效果，易于使用和集成。

0

AI抠图模型ComfyUI集成在线图像处理提示词抠图

ComfyUI-3D-Pack开源项目 – 便捷的3D资产生成工具

ComfyUI-3D-Pack是一个先进的3D输入处理套件，使用尖端算法（如3DGS、NeRF等）和模型（InstantMesh、CRM、TripoSR等）生成高质量的3D资产，使3D内容的生成像图像和视频一样便捷。

0

3D内容生成3D资产生成工具图像重建技术网格处理

Ferret-UI-理解移动界面的多模态语言模型

Ferret-UI 是一个多模态大型语言模型，旨在更好地理解移动用户界面。它具有处理和理解用户界面屏幕的能力，特别是在引用、定位和推理方面，能够有效地处理图像和文本信息，并支持从基础到高级的UI任务训练。该模型还具备任意分辨率技术，可以放大细节，并在各种引用和定位任务上表现优异。

0

UI任务训练UI设计改进可访问性提升多模态语言模型

MusePose开源项目 – 姿势驱动的虚拟人生成工具

MusePose是一种用于虚拟人生成的姿势驱动图像到视频框架，其结果质量超越了同一主题中几乎所有当前开源的模型。

0

姿势驱动虚拟人生成工具舞蹈视频生成视频对齐算法

杜德利官网 – 快速高效的涂鸦艺术生成工具

杜德利是一个快速高效的演示项目，允许用户通过语言指导进行涂鸦，并生成相应的艺术作品，结合了SDXL和T2I适配器，适用于各种创作场景。

0

AI艺术创作教育展示工具涂鸦艺术生成工具语言指导创作

Multi-LoRA Composition for Image Generation开源项目 – 集成多个LoRA生成定制图像

该项目探索文本到图像生成的新方法，重点是集成多个LoRA以创建高度定制和详细的图像。

0

ComposLoRA测试平台GPT-4V评估多LoRA图像生成自定义图像生成

meme-search-engine开源项目 – 基于SigLIP的模因搜索引擎

meme-search-engine是一个基于SigLIP模型的模因/表情包搜索引擎，旨在帮助用户通过图像快速找到相关的模因，具备高效的搜索算法和友好的用户界面，支持多种模因格式，并集成了社区反馈系统以提升用户体验。

0

基于图像的模因搜索模因搜索引擎用户友好的界面社区反馈系统

awesome-openai-vision-api-experiments开源项目 – 收集OpenAI Vision API推理示例

这个项目收集了很多使用OpenAI Vision API来对图像、视频文件和网络摄像头流进行推理的示例。项目结合了多种技术，实现了高效的图像处理和准确标注，适合开发者和研究人员进行实验和学习。

0

OpenAI Vision API图像分割掩膜图像推理示例实时视频分析

Segment Matting开源项目 – 提升图像抠图质量与性能

Segment Matting项目旨在利用SAM（Segment Anything Model）模型提升图像抠图的质量和性能，专注于优化抠图过程，减少锯齿边缘，提升分割的整体准确性。

0

SAM模型应用图像抠图工具高质量图像分割

Slideflow开源项目 – 深度学习图像分析流水线

Slideflow是一个用于组织学图像分析的深度学习流水线，支持Tensorflow/Keras和PyTorch。它提供了一个便捷的环境来构建和管理图像分析工作流程，具有良好的可扩展性，可以满足各种图像分析需求。

0

PyTorchTensorflow/Keras图像分析工作流程深度学习图像分析

Segment-Anything-U-Specify开源项目 – 图像任意类别实例分割

使用sam和clip模型完成图像任意指定类别的实例分割，支持指定多个类别。该项目结合了SAM模型的高效实例分割能力和CLIP模型的类别识别能力，提供了一个用户友好的接口，适合各种计算机视觉应用。

0

CLIP模型SAM模型图像任意类别实例分割用户友好的接口

TransferAttack开源项目 – 提升图像分类对抗性传递的框架

TransferAttack是一个基于PyTorch的框架，旨在提升图像分类中的对抗性传递性，提供评估和攻击模型的功能，并对已有的传递性攻击进行分类和评估。

0

PyTorch图像分类传递性攻击分析对抗性攻击框架模型评估工具

Beksinski Style Stable Diffusion官网 – AI学习Beksinski作品的图像生成

该项目通过AI学习了波兰艺术家Zdzislaw Beksinski的独特艺术风格，利用稳定扩散模型生成灵感丰富的图像，支持高分辨率输出并允许用户自定义输入文本提示，以实现个性化的艺术创作体验。

0

Beksinski风格图像生成稳定扩散模型自定义文本提示艺术创作工具

PoseFormerV2开源项目 – 高效、鲁棒的3D人类姿态估计

PoseFormerV2通过利用频域分析，提供高效且鲁棒的3D人类姿态估计，能够在各种条件下表现出色。

0

3D人类姿态估计体育分析增强现实应用实时姿态追踪

OmniGen-ComfyUI开源项目 – 简化图像处理的友好界面

一个为OmniGen定制的界面友好型节点，让你轻松实现文本到图像的转换，编辑图片，以及进行图像分割等操作，特色在于简化的图像处理流程和直观的用户界面

0

图像分割图片编辑文本到图像转换用户友好界面

onediff开源项目 – 加速图像生成和计算性能

OneDiff 是一个用于提升 Stable Diffusion 和 Stable Video Diffusion 性能的工具，提供社区版和企业版，支持多种硬件加速，能够显著提高计算速度和图像生成效率。它适用于机器学习、图像处理和数据分析等多个领域，支持多种模型和场景的实时生成与修改。

0

Stable Diffusion加速工具实时图像生成提升图像生成性能工具机器学习图像处理

DataEase开源项目 – 一款开源的数据可视化分析工具

DataEase 是开源的数据可视化分析工具，帮助用户快速分析数据并洞察业务趋势，从而实现业务的改进与优化。它支持多种平台和数据源，使用简单，适合各类用户。

0

仪表板制作开源数据可视化工具数据分析生成式AI

PromptFix开源项目 – 智能图像修复工具

一款能够根据人工指令处理损坏图片并去除不需要元素的AI工具，支持上色、去水印等多种图像修复任务。

0

AI图像修复工具去水印工具图像上色工具智能图像处理

Memory-Augmented Non-Local Attention for Video Super-Resolution开源项目 – 利用记忆增强非局部注意力提升视频超分辨率

一种通过记忆增强非局部注意力机制来提升视频超分辨率的方法，可以有效改善视频质量。

0

视频质量提升视频超分辨率记忆增强注意力机制非局部操作

sd-webui-better-prompt开源项目 – 简化Stable Diffusion的prompt管理

这是一个Stable Diffusion web UI的插件，旨在简化用户在生成图像时的prompt添加和编辑过程，增强用户体验并与Stable Diffusion无缝集成。

0

prompt管理工具Stable Diffusion插件图像生成优化

Tune-A-Video开源项目 – 通过文本直接生成视频。

Tune-A-Video 是一个基于文本描述生成视频的工具，支持多种风格和主题，能够快速输出高质量视频，且具有用户友好的界面，适合各种创作需求。

0

文本生成视频工具用户友好的视频生成工具高质量视频创作

Flora Incognita官网 – 智能植物识别与科研贡献应用

Flora Incognita是一款交互式植物识别应用，利用人工智能和公民科学帮助用户识别植物种类并收集相关信息。用户只需拍摄植物照片，应用便能自动识别其种类，用户还可以保存观察记录，为科学研究贡献数据。

0

AI植物识别公民科学植物识别应用科研数据贡献

Picwisdom.com官网 – 释放创造力，节省时间，打造难忘的帖子

Picwisdom.com是一个基于AI的标题生成器，旨在帮助用户通过智能标题提升视觉故事的魅力。无论是社交媒体帖子还是其他视觉内容，Picwisdom都能让每个发布变得独特而难忘。

0

AI标题生成器社交媒体内容创作视觉故事提升工具

Meitu Design Studio官网 – 简单易用的在线设计工具

美图设计工作室是一个易于使用的在线设计工具，即使是设计初学者也能快速创建图形。它提供了丰富的模板和素材，适用于电商主图、电商海报、小红书封面、视频封面、微信日常文案和营销海报的设计。

0

AI智能功能图像修复在线设计工具易于使用的设计工具