AI图像工具 | 第 67 页

CheXagent是一个基于视觉和语言的基础模型，专注于胸部X光片的解读，旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct，设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器，同时连接视觉和语言模态的网络，提供了新的评估基准CheXbench用于系统评估。

0

临床大型语言模型医学图像分析指令微调数据集胸部X光片解读模型

Gauss开源项目 – Mac上的原生Stable Diffusion图像生成App

Gauss是一款基于SwiftUI构建的原生macOS应用，利用ml-stable-diffusion CoreML模型实现图像生成，支持苹果硬件加速，提供用户友好的操作流程。

0

CoreMLmacOS应用Stable Diffusion图像生成用户友好的操作流程

ComfyUI-X-Portrait-Nodes开源项目 – 视频人脸动画化工具

用于在 ComfyUI 中运行 X-Portrait 的包装器，用于将视频中的人脸动画化，使其遵循参考图像的风格。该项目实现了视频人脸的动态效果与图像风格的匹配，提供了良好的用户体验，支持多种视频格式，方便用户在创作中进行个性化调整。

0

ComfyUI集成视频人脸动画化工具风格迁移

BoundaryFormer开源项目 – 基于掩码的多边界实例分割

BoundaryFormer是一个利用掩码监督的多边界变换器，专注于实例分割任务。该项目通过多边形边界的学习，提升了实例分割的精度和效率。

0

图像处理多边形边界多边界变换器实例分割

Residual Attention开源项目 – 简单有效的多标签识别方法

Residual Attention是一种简单但有效的多标签识别方法，利用残差注意机制，能够在多标签任务中表现出色。

0

图像分类多标签识别残差注意机制目标检测

Z∗: Zero-shot Style Transfer via Attention Rearrangement开源项目 – 无监督样式迁移方法

一种通过注意力重排列实现零样式迁移的方法，无需针对每种样式的训练数据。

0

图像处理图形设计注意力机制零样式迁移

MUMU-通过多模态生成提升图像质量

MUMU是一个利用多模态图像生成技术，通过交错文本和图像提示生成图像的模型。它结合了视觉编码器和语言模型，使用扩散模型作为图像解码器，基于（标题，图像）数据集构建，能够将不同图像的输入组合成连贯的输出，并支持风格转换和角色一致性任务。

0

图像质量提升多模态图像生成文本与图像结合角色一致性

MangaNinjia开源项目 – 自动为漫画线稿上色的智能工具

MangaNinjia 是一款自动为漫画线稿上色的工具，能够精准地根据参考图进行上色，并且支持通过点控制实现更复杂的上色任务，有望显著加速动漫行业的上色流程。

0

AI辅助上色漫画制作自动上色工具

Flow Matching开源项目 – 基于流匹配技术的高质量数据生成

Flow Matching是一个基于PyTorch的生成模型实现，利用流匹配技术将简单分布转换为复杂分布，旨在生成高质量的数据样本，广泛应用于图像生成、数据增强等多种生成任务。

0

Flow MatchingPyTorch生成模型图像生成数据增强

VideoReTalking开源项目 – 让视频中的嘴型与音频同步

VideoReTalking是一种新系统，能够根据输入的音频编辑现实世界中头部说话视频的脸部，自动生成高质量且口型同步的输出视频。系统使用学习方法处理所有步骤，确保视频中人物的嘴型与音频完美对齐，并根据声音变化表情。

0

AI视频编辑自动化视频生成表情编辑网络视频口型同步

yolov7_plate开源项目 – 基于YOLOv7的车牌检测与识别

基于YOLOv7的车牌检测与识别，包括中文车牌识别，支持双层车牌和13种中文车牌类型。

0

YOLOv7车牌检测智能停车系统深度学习应用车牌识别

EveryoneNobel开源项目 – 个性化诺贝尔奖项图片生成工具

一个可用于生成个性化诺贝尔奖项图片的开源 AI 工具，利用 ComfyUI 进行图像生成，并结合 HTML 模板来展示图片上的文本。

0

AI图像生成ComfyUIHTML模板展示个性化诺贝尔奖项图片生成工具

DALLE-reproduction开源项目 – 再现OpenAI的DALLE模型

DALLE-reproduction项目旨在重现OpenAI的DALLE模型，能够根据文本描述生成高质量图像，支持多种文本输入格式，并提供可扩展的模型架构和可调参数，以优化生成效果。该项目实现了多种训练和推理策略，适用于多种应用场景。

0

DALLE模型再现可扩展模型架构图像生成文本到图像

SDXL Lightning 和 Controlnet 即时控制人物姿势开源项目 – 实现即时控制人物姿势的高效工具

通过SDXL Lightning 和 Controlnet 实现即时控制人物姿势的代码，允许用户灵活调整和管理虚拟人物的姿势，提供高效的实时响应。该项目结合了先进的深度学习技术，使得姿势控制更加精准和便捷。

0

ControlNetSDXL Lightning即时控制人物姿势姿势控制工具

Loopy开源项目 – 基于音频驱动的头像动画生成

Loopy是一个能够利用长期运动依赖性生成自然运动模式的项目，仅通过音频生成生动的运动细节，支持多种视觉和音频风格，消除手动指定空间运动模板的需求，生成运动自适应的合成结果。

0

情绪驱动动画自然运动模式生成逼真歌唱表演动画音频驱动头像动画生成

MiniCPM-o-2_6官网 – 新型混合模型，具备多种功能

MiniCPM-o-2_6是Openbmb发布的一款新的混合模型，结合了多个先进模型，能够处理视觉、语音、视频流和OCR等多种任务，具有强大的功能和灵活的应用场景。

0

OCR功能多功能AI模型实时解析新型混合模型

CAT3D开源项目 – 使用多视图扩散模型以 3D 形式创建任何内容

CAT3D 是一个强大的工具，可以从任意数量的真实或生成的图像创建 3D 场景。其处理时间极短，仅需一分钟，能够生成高度一致的新视角场景，并支持实时渲染的可交互 3D 表示。CAT3D 在创建 3D 场景方面优于传统的单图像和少视图方法，适用于多种应用领域。

0

3D场景生成工具实时渲染建筑可视化游戏开发

Kandinsky-3开源项目 – 开源文本到图像扩散模型

Kandinsky-3是基于Kandinsky2-x模型族构建的开源文本到图像扩散模型，旨在提供高质量的图像生成和多样化的风格选择，支持用户自定义输入，快速生成，并易于扩展。

0

开源图像生成模型文本到图像生成深度学习集成用户自定义输入

ColPali开源项目 – 使用视觉语言模型实现高效的文档检索

ColPali 是一个基于视觉语言模型的文档检索工具，旨在通过图像和文本的结合，提供高效的检索能力。它不再依赖传统的文本提取方法，而是利用具有后期交互机制的微调视觉模型，能够处理复杂文档并显著提升检索效果。该模型体积小且性能优于常规的基于文本和文本图像嵌入的方法，支持多模式索引和检索，适用于各种视觉丰富的文档。

0

信息捕捉多模式索引文档检索工具视觉语言模型

DiffGS开源项目 – 功能性高斯喷溅扩散

DiffGS是一个功能性高斯喷溅扩散项目，旨在通过扩散模型生成高质量的图像。其核心技术围绕高斯喷溅的数学原理，能够在图像生成领域提供创新的解决方案。

0

功能性高斯喷溅扩散扩散模型高质量图像生成

基于LLM的扩散官网 – 提升文本到图像理解

通过大型语言模型增强对文本到图像扩散模型的快速理解，提升text-to-image领域对于Prompt的理解，避免图像和文本要求不一致的情况。

0

场景布局生成基于LLM的文本到图像生成复杂语言提示处理提升图像理解

Sound reconstruction from human brain activity via a generative model with brain-like auditory features-利用AI重建大脑活动对应的声音

通过功能磁共振成像和生成人工智能模型重建人类大脑活动的声音，为感知体验的神经表征提供了见解。