该项目是一个精选的GPT-4o生成图片案例集合,展示了OpenAI最新多模态模型在图像创作领域的强大能力。 包含46个高质量案例,涵盖Q版3D、复古海报、吉卜力风格等多样化主题,每个案例均附详细提示词和效果图, 旨在为创作者提供灵感和实用参考。项目还整合了提示词工程技巧和推荐工具,支持中英双语。
HiDream-I1是HiDream.ai团队推出的开源图像生成基础模型,拥有17亿参数,采用MIT许可证。该模型在多项基准测试中(DPG-Bench/GenEval/HPSv2.1)超越SDXL、DALL-E 3等主流模型,支持秒级高质量图像生成。提供完整版、蒸馏版和极速版三种变体,适用于不同场景需求。技术层面融合扩散模型与混合专家架构(MoE),集成多模态文本编码器,在语义理解、细节渲染和风格多样性方面表现突出。
Kimi-VL是MoonshotAI开发的开源专家混合(MoE)架构视觉语言模型,仅激活2.8B参数即可实现高级多模态推理能力。该模型具有128K超长上下文处理窗口,配备原生分辨率视觉编码器MoonViT,在长视频理解(64.5@LongVideoBench)、文档解析(35.1@MMLongBench-Doc)、高精度OCR(83.2@InfoVQA)等任务表现优异。提供标准版(Kimi-VL-A3B-Instruct)和强化思维链推理版(Kimi-VL-A3B-Thinking)两个变体,后者在数学推理(61.7@MMMU)和复杂视觉问题求解(71.3@MathVista)方面达到70B参数模型的水平。
InfiniteYou (InfU) 是字节跳动发布的基于DiT(Diffusion Transformers)的开源框架,专注于在图像生成过程中高度保留原始身份特征。通过InfuseNet组件将身份特征以残差连接方式注入FLUX基础模型,结合多阶段训练策略(包括预训练和基于合成数据的监督微调),显著提升身份相似度、文本-图像对齐质量以及生成图像的美学效果。项目提供两种模型变体(aes_stage2侧重美学,sim_stage1侧重身份相似度),支持插件化扩展(如ControlNet、LoRA),并兼容多种FLUX变体模型。
TruthLens是一个基于AI的深度伪造(DeepFake)检测项目,通过视觉问答(VQA)任务重新定义检测流程。它不仅能够分类图像为真实或伪造,还能提供可解释的说明,增强检测结果的可信度。该项目采用多模态模型(如LLaVA和BLIP-2)分析图像,结合预定义问题生成和自然语言处理技术,检测合成图像中的视觉异常(如光照、纹理、对称性和反射等)。TruthLens无需训练,直接利用预训练模型,适用于复杂合成图像的检测,并在LDM和ProGAN数据集上表现出色(AUC分别达95%和97.5%)。
可灵AI是由快手公司开发的AI内容生成工具,专注于图片和视频创作。它集成文生图、AI形象定制、视频生成等功能,支持1080p高清视频输出和虚拟形象一致性控制,适用于艺术创作、商业营销等多场景。采用3D时空联合注意力机制模拟物理特性,界面简洁且当前限时免费。
Open WebUI是一个可扩展、功能丰富的自托管AI平台,设计为完全离线运行,支持多种大型语言模型(LLM)运行器,如Ollama和OpenAI兼容API。内置RAG(检索增强生成)推理引擎,适合隐私敏感场景,提供多模态交互、企业级功能支持,并允许通过插件扩展定制功能。
Gauss2是三星在2024年韩国开发者大会(SDC24 Korea)发布的第二代多模态生成性AI模型,支持语言、代码和图像处理。提供Compact(紧凑型)、Balanced(平衡型)、Supreme(至尊型)三种版本,分别适用于设备端、通用场景和云端高性能需求。支持9-14种自然语言和多种编程语言,处理速度比主流开源模型快1.5-3倍。目前主要用于三星内部生产力工具,未来计划集成到消费产品中。
OpenAI Microscope 是由 OpenAI 开发的神经网络可视化工具,专注于帮助开发者理解和分析视觉模型的内部结构。它系统性地展示了八个常用视觉模型(如 AlexNet、InceptionV1 等)的每个重要层和神经元,支持快速反馈和协作研究。该项目发布于 2020 年,虽未在近期更新,但仍为研究社区提供重要资源,特别是在神经网络可解释性和逆向工程方面。
Grok-1.5 Vision是xAI在2024年4月发布的首代多模态视觉模型,专注于图像生成与分析。它能处理文档、图表、截图和照片等多种视觉信息,在RealWorldQA等基准测试中表现优异(空间理解得分68.7%),尤其擅长现实世界空间推理和跨学科任务。目前未向公众开放,仅限早期测试者和现有Grok用户使用。
LYDIA是由Leyard Optoelectronic开发的动作大模型,专注于空间计算中的动作数据生成和理解。它能生成三维动作数据,兼容主流数字内容创作平台,实现精确的人物动作生成。应用领域广泛,包括影视、游戏、动画、电商、教育、体育和艺术等。虽然未明确提及直接用于物理机器人,但其动作数据生成能力可能间接支持机器人动作训练。
MiniMaxVL-01是MiniMax开发的多模态大型语言模型,基于Transformer架构,能够处理和理解文本和图像输入。它在多模态基准测试中表现优异,性能与GPT-4o和Claude-3.5-Sonnet相当,具有较长的上下文窗口(20-32倍于标准模型)。该模型通过API平台提供服务,广泛应用于招聘、电商、教育等领域,支持AI音乐生成、智能文档生成、AI语音合成、实时语音通话和AI视频生成等先进技术。
Phi-3.5-vision是由微软开发的开源多模态模型,专注于文本和视觉数据处理。它基于合成数据和精选公开数据构建,支持128K上下文长度,通过监督微调和直接偏好优化提升指令遵循和安全性。该模型参数量为42亿,包含图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练数据达5000亿令牌,适用于内存/计算受限环境。
快手可灵是由中国短视频巨头快手公司自主研发的生成式AI平台,专注于视频和图像的智能创作。该平台基于自研的Spiritable和Graphable大模型,采用类似OpenAI Sora的DiT(Diffusion Transformer)架构,支持文本/图像转视频、视频编辑续作等高阶功能。截至2024年数据显示,其全球生成式AI应用排名第20位,已生成超3700万条视频,在视频质量、亚洲人脸生成等方面表现优于Sora。平台提供网页端、独立App及小程序多端入口,并设有会员订阅体系(10美元/月起)和创意社区生态。
Amazon Bedrock 是一个完全托管的服务,通过单一API提供来自领先AI公司和亚马逊自身的多种高性能基础模型(FMs)。它支持用户构建和扩展生成式AI应用,确保安全性、隐私性和负责任的AI实践。用户可以试验不同的模型,使用如微调(fine-tuning)和检索增强生成(RAG)等技术自定义模型,并创建与企业系统交互的代理。平台整合了超过100个基础模型,包括亚马逊自研的Nova系列模型和第三方模型,如DeepSeek-R1、Luma Ray2、Meta的SAM 2.1、Claude3.7等。
HaploVLM是腾讯开发的基于单一Transformer架构的多模态AI模型,支持文本、图像和视频的跨模态理解与自回归响应生成。通过优化训练配方降低资源消耗,适配Ascend NPU/GPU硬件,具备细粒度感知和逻辑推理能力,适用于智能客服、内容分析等场景。
LHM(大型可动画人体重建模型)是阿里巴巴通义实验室开发的AI工具,通过单张图片快速生成高保真3D可动画数字人模型。采用3D高斯点云和多模态Transformer技术,支持实时渲染和姿势调整,适用于AR/VR等沉浸式场景。提供多种预训练模型(如LHM-0.5B/1B),推理时间最快仅需2秒,支持输出OBJ格式网格文件。
Cosmos-Transfer1是NVIDIA Cosmos世界基础模型系列中的一员,专注于通过多模态输入生成高度可控的虚拟世界,主要用于机器人和自动驾驶车辆的Sim2Real(从模拟到现实)训练。该模型支持多种输入模式如分割图、深度图、LiDAR扫描等,并具备自适应空间控制和4K视频上采样功能,参数规模为7B,适配80GB H100硬件。
DiffMoE是一个基于PyTorch的扩散模型项目,采用动态专家混合(MoE)架构,通过仅激活1倍参数即可超越3倍参数的密集模型。它在ImageNet上表现出色,FID50K分数低至2.30,Inception Score高达88.19,仅需700K训练步。项目主要用于图像生成任务,如类别条件生成和文本到图像生成。其核心创新包括批次级全局令牌池和动态容量预测器,能够根据噪声水平和样本复杂度智能分配计算资源。
电影镜头分类器是一个利用微软Florence-2模型进行微调的计算机视觉项目,专门针对ShotDEAD-v0数据集优化,用于高效分类电影镜头类型。 该项目提供完整的训练和推理代码,支持镜头尺度(如特写、中景)和镜头运动(如推拉、摇移)等分类任务,适用于电影分析和视频内容处理领域。 由于采用Florence-2的序列到序列架构,模型在零样本和微调场景下均表现优异,但项目当前未公开URL和数据集详细信息。
Chat2 SVG是一个结合大型语言模型(LLMs)和图像扩散模型的混合框架,旨在通过文本提示生成高质量的SVG矢量图形。它采用多阶段生成流程,包括模板生成、增强和优化,解决了传统方法在形状规律性、泛化能力和表现力方面的局限性,使矢量图形创作对非专业用户更加友好。
OpenChat是一个现代化的全栈AI聊天应用,旨在通过集成OpenAI GPT-4和Cloudflare Workers技术栈,为用户提供跨Web、移动端和桌面端的智能对话体验。支持数据实时同步、文本生成图片及网络搜索功能,具备高性能全球部署能力。
该项目专注于开发两种高阶数值求解器(θ-RK-2和θ-梯形法),用于优化离散扩散模型在生成式AI任务(如文本/图像生成)中的性能。 通过引入可调参数θ,这些方法在传统Runge-Kutta法和梯形规则基础上进行改进,显著提升采样速度和样本质量。 项目结合了数值分析与现代机器学习,针对离散数据(如自然语言或离散化图像表示)的扩散过程提供高效数值解。
SpeeD是由NUS-HPC-AI-Lab开发的扩散模型训练加速工具,通过重新采样和重新加权策略优化时间步处理,实现训练效率提升三倍。其核心采用不对称采样策略和变化感知加权策略,减少收敛区域时间步的采样频率,增加加速和减速区域的时间步采样概率,并对快速变化过程增量的时间步赋予更高权重。该工具即插即用且架构无关,兼容多种扩散模型架构如U-Net、DiT等,适用于图像生成等多种任务。
LynxHub是一个综合性的开源AI平台,旨在通过模块化设计和可扩展架构简化AI工具的管理与使用。它支持20+种AI接口(涵盖图像、文本、音频生成),提供Python环境管理、虚拟环境配置、参数定制等核心功能,并配备人性化界面(支持深色/浅色主题及布局自定义)。平台还内置Markdown查看器、终端/浏览器集成等实用工具,适合开发者高效管理多AI工具。
VisionAgent是由LandingAI开发的可扩展视觉AI技术,旨在通过自动化代码生成、模型选择和部署流程,帮助开发者在几分钟内构建视觉功能应用。它支持图像/视频处理任务(如物体检测、图像分类),提供从快速原型开发到生产部署的全流程解决方案,并集成多款开源模型和工具。
iFormer是一种专为移动应用设计的视觉模型,通过结合卷积网络和Transformer架构,实现了低延迟和高精度的双重突破。它在iPhone 13上延迟仅1.10毫秒,Top-1准确率可达80.4%,适用于目标检测和语义分割等多种计算机视觉任务。官方版本的最小模型参数为20M,ImageNet-1K的Top-1准确率达83.4%,但可能存在移动优化的特定版本(如2.9M参数版本)。
Ola是一个开源的全能多模态语言模型,旨在打破多模态理解的边界,支持文本、图像、视频和音频的全面理解。它采用渐进式模态对齐策略(PMA),通过三个阶段(文本-图像、语音、视频)逐步扩展模型能力,确保在不同模态间的性能平衡。Ola-7B版本在OpenCompass多模态排行榜上平均得分72.6,排名第一,是参数少于15B的模型中表现最佳的。此外,Ola支持实时流式解码功能,增强文本和语音交互的流畅性,适合需要高级交互体验的场景。
Agentic Object Detection 是 LandingAI 开发的计算机视觉项目,通过文本提示实现人类级别的目标检测精度,无需定制训练。它利用推理驱动的 AI 分析物体的独特属性(如颜色、形状、纹理)及物体间关系,支持零样本学习。在内部基准测试中,其 F1 分数达 79.7%,优于 Microsoft Florence-2、Google OWLv2 等模型。项目集成于 LandingLens 平台,适用于农业、制造业、医疗等多个行业。
OSEA Mobile 是一款基于 Flutter 开发的开源跨平台应用,专注于完全离线的鸟类物种识别。它采用预训练的深度学习模型(如 ResNet34 和 MetaFGNet),支持识别超过 10,000 种鸟类,准确率高达 87.6%(验证集)。项目包含移动端应用和命令行工具,特别适合野外生物多样性监测和学术研究。核心数据集 DIB-10K 经过严格清洗,模型通过高性能计算训练,技术方案发表于生态学预印本论文。