AI图像工具 | AI-magic

Awesome GPT-4o Images开源项目 – GPT-4o多模态图像生成案例库

该项目是一个精选的GPT-4o生成图片案例集合，展示了OpenAI最新多模态模型在图像创作领域的强大能力。包含46个高质量案例，涵盖Q版3D、复古海报、吉卜力风格等多样化主题，每个案例均附详细提示词和效果图，旨在为创作者提供灵感和实用参考。项目还整合了提示词工程技巧和推荐工具，支持中英双语。

0

AI绘画提示词库GPT-4o图像生成图像生成案例库多模态模型

HiDream-I1开源项目 – 开源高质量图像生成模型

HiDream-I1是HiDream.ai团队推出的开源图像生成基础模型，拥有17亿参数，采用MIT许可证。该模型在多项基准测试中（DPG-Bench/GenEval/HPSv2.1）超越SDXL、DALL-E 3等主流模型，支持秒级高质量图像生成。提供完整版、蒸馏版和极速版三种变体，适用于不同场景需求。技术层面融合扩散模型与混合专家架构（MoE），集成多模态文本编码器，在语义理解、细节渲染和风格多样性方面表现突出。

0

商业设计多模态文本编码器开源图像生成模型扩散模型

Kimi-VL开源项目 – 高效开源多模态视觉语言模型

Kimi-VL是MoonshotAI开发的开源专家混合(MoE)架构视觉语言模型，仅激活2.8B参数即可实现高级多模态推理能力。该模型具有128K超长上下文处理窗口，配备原生分辨率视觉编码器MoonViT，在长视频理解(64.5@LongVideoBench)、文档解析(35.1@MMLongBench-Doc)、高精度OCR(83.2@InfoVQA)等任务表现优异。提供标准版(Kimi-VL-A3B-Instruct)和强化思维链推理版(Kimi-VL-A3B-Thinking)两个变体，后者在数学推理(61.7@MMMU)和复杂视觉问题求解(71.3@MathVista)方面达到70B参数模型的水平。

0

开源多模态视觉语言模型数学视觉求解长视频理解高效OCR工具

InfiniteYou开源项目 – 高保真身份保留的图像生成框架

InfiniteYou (InfU) 是字节跳动发布的基于DiT（Diffusion Transformers）的开源框架，专注于在图像生成过程中高度保留原始身份特征。通过InfuseNet组件将身份特征以残差连接方式注入FLUX基础模型，结合多阶段训练策略（包括预训练和基于合成数据的监督微调），显著提升身份相似度、文本-图像对齐质量以及生成图像的美学效果。项目提供两种模型变体（aes_stage2侧重美学，sim_stage1侧重身份相似度），支持插件化扩展（如ControlNet、LoRA），并兼容多种FLUX变体模型。

0

ControlNet集成LoRA增强人像风格化广告设计

TruthLens论文 – AI驱动的深度伪造检测工具

TruthLens是一个基于AI的深度伪造（DeepFake）检测项目，通过视觉问答（VQA）任务重新定义检测流程。它不仅能够分类图像为真实或伪造，还能提供可解释的说明，增强检测结果的可信度。该项目采用多模态模型（如LLaVA和BLIP-2）分析图像，结合预定义问题生成和自然语言处理技术，检测合成图像中的视觉异常（如光照、纹理、对称性和反射等）。TruthLens无需训练，直接利用预训练模型，适用于复杂合成图像的检测，并在LDM和ProGAN数据集上表现出色（AUC分别达95%和97.5%）。

0

AI深度伪造检测工具可解释性AI检测多模态图像分析预训练模型应用

可灵AI官网 – 快手推出的AI图片视频生成工具

可灵AI是由快手公司开发的AI内容生成工具，专注于图片和视频创作。它集成文生图、AI形象定制、视频生成等功能，支持1080p高清视频输出和虚拟形象一致性控制，适用于艺术创作、商业营销等多场景。采用3D时空联合注意力机制模拟物理特性，界面简洁且当前限时免费。

0

AI图片生成工具AI视频生成工具快手AI工具文生图工具

Open WebUI官网 – 自托管AI界面工具

Open WebUI是一个可扩展、功能丰富的自托管AI平台，设计为完全离线运行，支持多种大型语言模型（LLM）运行器，如Ollama和OpenAI兼容API。内置RAG（检索增强生成）推理引擎，适合隐私敏感场景，提供多模态交互、企业级功能支持，并允许通过插件扩展定制功能。

0

RAG推理引擎企业级AI解决方案多模态交互离线AI工具

Gauss2官网 – 三星第二代多模态生成AI

Gauss2是三星在2024年韩国开发者大会(SDC24 Korea)发布的第二代多模态生成性AI模型，支持语言、代码和图像处理。提供Compact(紧凑型)、Balanced(平衡型)、Supreme(至尊型)三种版本，分别适用于设备端、通用场景和云端高性能需求。支持9-14种自然语言和多种编程语言，处理速度比主流开源模型快1.5-3倍。目前主要用于三星内部生产力工具，未来计划集成到消费产品中。

0

三星AI模型云端AI代码处理图像处理

OpenAI Microscope官网 – 神经网络可视化分析工具

OpenAI Microscope 是由 OpenAI 开发的神经网络可视化工具，专注于帮助开发者理解和分析视觉模型的内部结构。它系统性地展示了八个常用视觉模型（如 AlexNet、InceptionV1 等）的每个重要层和神经元，支持快速反馈和协作研究。该项目发布于 2020 年，虽未在近期更新，但仍为研究社区提供重要资源，特别是在神经网络可解释性和逆向工程方面。

0

OpenAI Microscope神经网络可视化工具神经网络可解释性计算机视觉模型分析

Grok-1.5 Vision官网 – xAI发布的多模态视觉模型

Grok-1.5 Vision是xAI在2024年4月发布的首代多模态视觉模型，专注于图像生成与分析。它能处理文档、图表、截图和照片等多种视觉信息，在RealWorldQA等基准测试中表现优异（空间理解得分68.7%），尤其擅长现实世界空间推理和跨学科任务。目前未向公众开放，仅限早期测试者和现有Grok用户使用。

0

代码生成图像生成与分析多模态视觉模型文档解析

LYDIA官网 – 空间计算动作生成大模型

LYDIA是由Leyard Optoelectronic开发的动作大模型，专注于空间计算中的动作数据生成和理解。它能生成三维动作数据，兼容主流数字内容创作平台，实现精确的人物动作生成。应用领域广泛，包括影视、游戏、动画、电商、教育、体育和艺术等。虽然未明确提及直接用于物理机器人，但其动作数据生成能力可能间接支持机器人动作训练。

0

三维动作数据生成影视动作生成数字内容创作游戏角色动作生成

MiniMaxVL-01官网 – 多模态大语言模型

MiniMaxVL-01是MiniMax开发的多模态大型语言模型，基于Transformer架构，能够处理和理解文本和图像输入。它在多模态基准测试中表现优异，性能与GPT-4o和Claude-3.5-Sonnet相当，具有较长的上下文窗口（20-32倍于标准模型）。该模型通过API平台提供服务，广泛应用于招聘、电商、教育等领域，支持AI音乐生成、智能文档生成、AI语音合成、实时语音通话和AI视频生成等先进技术。

0

AI视频生成AI语音合成AI音乐生成多模态大语言模型

Phi-3.5-vision模型 – 轻量级多模态AI模型

Phi-3.5-vision是由微软开发的开源多模态模型，专注于文本和视觉数据处理。它基于合成数据和精选公开数据构建，支持128K上下文长度，通过监督微调和直接偏好优化提升指令遵循和安全性。该模型参数量为42亿，包含图像编码器、连接器、投影器和Phi-3 Mini语言模型，训练数据达5000亿令牌，适用于内存/计算受限环境。

0

OCR工具图表理解多模态AI模型视频摘要生成

快手可灵（Ke Ling AI）官网 – 快手开发的AI视频图像生成平台

快手可灵是由中国短视频巨头快手公司自主研发的生成式AI平台，专注于视频和图像的智能创作。该平台基于自研的Spiritable和Graphable大模型，采用类似OpenAI Sora的DiT（Diffusion Transformer）架构，支持文本/图像转视频、视频编辑续作等高阶功能。截至2024年数据显示，其全球生成式AI应用排名第20位，已生成超3700万条视频，在视频质量、亚洲人脸生成等方面表现优于Sora。平台提供网页端、独立App及小程序多端入口，并设有会员订阅体系（10美元/月起）和创意社区生态。

0

AI图像生成AI视频生成广告营销视频影视分镜生成

Amazon Bedrock官网 – 亚马逊云科技推出的AI模型平台

Amazon Bedrock 是一个完全托管的服务，通过单一API提供来自领先AI公司和亚马逊自身的多种高性能基础模型（FMs）。它支持用户构建和扩展生成式AI应用，确保安全性、隐私性和负责任的AI实践。用户可以试验不同的模型，使用如微调（fine-tuning）和检索增强生成（RAG）等技术自定义模型，并创建与企业系统交互的代理。平台整合了超过100个基础模型，包括亚马逊自研的Nova系列模型和第三方模型，如DeepSeek-R1、Luma Ray2、Meta的SAM 2.1、Claude3.7等。

0

AI模型平台内容创作工具多模态数据处理智能代理

HaploVLM开源 – 腾讯多模态跨模态理解模型

HaploVLM是腾讯开发的基于单一Transformer架构的多模态AI模型，支持文本、图像和视频的跨模态理解与自回归响应生成。通过优化训练配方降低资源消耗，适配Ascend NPU/GPU硬件，具备细粒度感知和逻辑推理能力，适用于智能客服、内容分析等场景。

0

内容分析多模态AI模型智能客服自回归响应生成

LHM开源 – 单图生成3D可动画数字人

LHM（大型可动画人体重建模型）是阿里巴巴通义实验室开发的AI工具，通过单张图片快速生成高保真3D可动画数字人模型。采用3D高斯点云和多模态Transformer技术，支持实时渲染和姿势调整，适用于AR/VR等沉浸式场景。提供多种预训练模型（如LHM-0.5B/1B），推理时间最快仅需2秒，支持输出OBJ格式网格文件。

0

3D数字人生成AI动画建模AR/VR开发单图转3D模型

Cosmos-Transfer1开源 – NVIDIA开发的虚拟世界生成AI模型

Cosmos-Transfer1是NVIDIA Cosmos世界基础模型系列中的一员，专注于通过多模态输入生成高度可控的虚拟世界，主要用于机器人和自动驾驶车辆的Sim2Real（从模拟到现实）训练。该模型支持多种输入模式如分割图、深度图、LiDAR扫描等，并具备自适应空间控制和4K视频上采样功能，参数规模为7B，适配80GB H100硬件。

0

Sim2Real训练多模态输入机器人模拟测试自动驾驶模拟

DiffMoE官网 – 高效动态MoE扩散模型

DiffMoE是一个基于PyTorch的扩散模型项目，采用动态专家混合（MoE）架构，通过仅激活1倍参数即可超越3倍参数的密集模型。它在ImageNet上表现出色，FID50K分数低至2.30，Inception Score高达88.19，仅需700K训练步。项目主要用于图像生成任务，如类别条件生成和文本到图像生成。其核心创新包括批次级全局令牌池和动态容量预测器，能够根据噪声水平和样本复杂度智能分配计算资源。

0

动态专家混合架构图像生成扩散模型文本到图像生成

电影镜头分类器官网 – 基于Florence-2的电影镜头分类工具

电影镜头分类器是一个利用微软Florence-2模型进行微调的计算机视觉项目，专门针对ShotDEAD-v0数据集优化，用于高效分类电影镜头类型。该项目提供完整的训练和推理代码，支持镜头尺度（如特写、中景）和镜头运动（如推拉、摇移）等分类任务，适用于电影分析和视频内容处理领域。由于采用Florence-2的序列到序列架构，模型在零样本和微调场景下均表现优异，但项目当前未公开URL和数据集详细信息。

0

Florence-2模型微调ShotDEAD-v0数据集优化电影镜头分类工具计算机视觉项目

Chat2 SVG官网 – AI驱动的文本生成SVG工具

Chat2 SVG是一个结合大型语言模型（LLMs）和图像扩散模型的混合框架，旨在通过文本提示生成高质量的SVG矢量图形。它采用多阶段生成流程，包括模板生成、增强和优化，解决了传统方法在形状规律性、泛化能力和表现力方面的局限性，使矢量图形创作对非专业用户更加友好。

0

AI生成SVG工具文本到矢量图形转换矢量图形设计

OpenChat官网 – 跨平台AI聊天应用

OpenChat是一个现代化的全栈AI聊天应用，旨在通过集成OpenAI GPT-4和Cloudflare Workers技术栈，为用户提供跨Web、移动端和桌面端的智能对话体验。支持数据实时同步、文本生成图片及网络搜索功能，具备高性能全球部署能力。

0

AI聊天应用OpenAI GPT-4集成实时网络搜索文本生成图片

θ-RK-2和θ-Trapezoidal离散扩散模型求解器开源 – 提升离散扩散模型效率的高阶数值求解器

该项目专注于开发两种高阶数值求解器（θ-RK-2和θ-梯形法），用于优化离散扩散模型在生成式AI任务（如文本/图像生成）中的性能。通过引入可调参数θ，这些方法在传统Runge-Kutta法和梯形规则基础上进行改进，显著提升采样速度和样本质量。项目结合了数值分析与现代机器学习，针对离散数据（如自然语言或离散化图像表示）的扩散过程提供高效数值解。

0

AI图像生成优化文本生成加速工具离散扩散模型求解器高阶数值求解器

SpeeD开源 – 扩散模型三倍加速训练工具

SpeeD是由NUS-HPC-AI-Lab开发的扩散模型训练加速工具，通过重新采样和重新加权策略优化时间步处理，实现训练效率提升三倍。其核心采用不对称采样策略和变化感知加权策略，减少收敛区域时间步的采样频率，增加加速和减速区域的时间步采样概率，并对快速变化过程增量的时间步赋予更高权重。该工具即插即用且架构无关，兼容多种扩散模型架构如U-Net、DiT等，适用于图像生成等多种任务。

0

图像生成优化开源AI工具扩散模型训练加速工具

LynxHub开源 – 开源AI管理平台

LynxHub是一个综合性的开源AI平台，旨在通过模块化设计和可扩展架构简化AI工具的管理与使用。它支持20+种AI接口（涵盖图像、文本、音频生成），提供Python环境管理、虚拟环境配置、参数定制等核心功能，并配备人性化界面（支持深色/浅色主题及布局自定义）。平台还内置Markdown查看器、终端/浏览器集成等实用工具，适合开发者高效管理多AI工具。

0

AI工具组合AI接口集成Markdown查看器Python环境管理

VisionAgent官网 – 加速视觉AI开发的工具集

VisionAgent是由LandingAI开发的可扩展视觉AI技术，旨在通过自动化代码生成、模型选择和部署流程，帮助开发者在几分钟内构建视觉功能应用。它支持图像/视频处理任务（如物体检测、图像分类），提供从快速原型开发到生产部署的全流程解决方案，并集成多款开源模型和工具。

0

图像分类图像处理模型选择与部署物体检测

iFormer开源 – 移动端高效视觉模型

iFormer是一种专为移动应用设计的视觉模型，通过结合卷积网络和Transformer架构，实现了低延迟和高精度的双重突破。它在iPhone 13上延迟仅1.10毫秒，Top-1准确率可达80.4%，适用于目标检测和语义分割等多种计算机视觉任务。官方版本的最小模型参数为20M，ImageNet-1K的Top-1准确率达83.4%，但可能存在移动优化的特定版本（如2.9M参数版本）。

0

低延迟高精度视觉模型卷积网络与Transformer融合多任务计算机视觉框架移动端视觉模型

Ola开源 – 全能多模态语言模型

Ola是一个开源的全能多模态语言模型，旨在打破多模态理解的边界，支持文本、图像、视频和音频的全面理解。它采用渐进式模态对齐策略（PMA），通过三个阶段（文本-图像、语音、视频）逐步扩展模型能力，确保在不同模态间的性能平衡。Ola-7B版本在OpenCompass多模态排行榜上平均得分72.6，排名第一，是参数少于15B的模型中表现最佳的。此外，Ola支持实时流式解码功能，增强文本和语音交互的流畅性，适合需要高级交互体验的场景。

0

交互式AI系统多模态内容分析多模态语言模型实时流式解码

Agentic Object Detection官网 – 基于文本提示的零样本目标检测技术

Agentic Object Detection 是 LandingAI 开发的计算机视觉项目，通过文本提示实现人类级别的目标检测精度，无需定制训练。它利用推理驱动的 AI 分析物体的独特属性（如颜色、形状、纹理）及物体间关系，支持零样本学习。在内部基准测试中，其 F1 分数达 79.7%，优于 Microsoft Florence-2、Google OWLv2 等模型。项目集成于 LandingLens 平台，适用于农业、制造业、医疗等多个行业。

0

LandingAI多行业应用文本提示检测计算机视觉

OSEA Mobile官网 – 离线鸟类识别开源应用

OSEA Mobile 是一款基于 Flutter 开发的开源跨平台应用，专注于完全离线的鸟类物种识别。它采用预训练的深度学习模型（如 ResNet34 和 MetaFGNet），支持识别超过 10,000 种鸟类，准确率高达 87.6%（验证集）。项目包含移动端应用和命令行工具，特别适合野外生物多样性监测和学术研究。核心数据集 DIB-10K 经过严格清洗，模型通过高性能计算训练，技术方案发表于生态学预印本论文。

0

学术研究工具深度学习模型生物多样性监测离线鸟类识别