Qwen-VL是一个支持多种模态输入的高性能项目,旨在提供图像理解和生成能力,并具备灵活的API接口,适合多种应用场景。
DiffMorpher是首个利用扩散模型进行图像变形的方法。其关键思路是通过对两个图像拟合两个LoRA(局部反向自动编码器)来捕捉它们的语义,并在LoRA参数和潜在噪声之间进行插值,以确保平滑的语义过渡。
Rope 是一款功能强大的开源AI换脸软件,利用易用的图形用户界面实现了 informface inswapper_128 模型,支持图像和视频的快速换脸,提供多种高级功能,适合各种用户需求。
扩散模型的极速推理工具,能快速处理复杂的图像生成任务,提升模型运行效率
LoRD是一个用于高保真动态人类建模的项目,采用局部4D隐式表示,能够生成真实感极强的人体模型。
Lobe Icons已为我们收集了流行AI/LLM模型品牌SVG标志和图标,提供轻量级、可扩展的图标资源,并支持直接从CDN使用,助力项目快速集成知名品牌图标。图标库更新及时,方便开发者使用,适应各种屏幕尺寸,易于集成到项目中。
该项目提供了从多个视角生成场景图的能力,能够分析复杂的场景关系,提升视觉理解能力。
一种基于StableDiffusion 的多语言文本图像生成模型,旨在为多语言用户提供文图生成的基础参照系。
该项目集成了多种 AI 工具,旨在实现 NovelAI 的批量文生图、图生图、视频转绘、分块重绘等功能,并提供了一个 WebUI 供用户操作和管理这些功能。
Diffusion Handles通过将激活提升为3D,实现了扩散模型的3D编辑能力,使得用户可以更灵活地处理和修改3D模型。
Inpaint-iOS是一款基于CoreML技术的免费开源修复图片应用,支持在iPhone、iPad和MacBook上使用,具备本地处理能力,无需依赖服务器,用户可以自由修改和分发该项目,提供友好的用户界面。
DINOv2是Meta AI开发的最先进计算机视觉模型,具有自监督学习功能,无需大量标注数据即可训练。它能够直接从图像中学习特征,适用于图像分类、分割、检索和深度估计等多种任务。DINOv2的预训练版本已上线,与CLIP和OpenCLIP等模型竞争,并在众多任务中表现出色。
MoveNet是一个基于深度学习的高效姿态检测模型,能够在PyTorch环境中实时估计人体姿态,支持多种输入格式,并能在多个设备上运行,包括移动设备。
一款开源的一站式 AI 影视解说+自动化剪辑工具,基于LLM实现文案撰写、自动化视频剪辑、配音和字幕生成的一站式流程。
DreamSampler结合了扩散采样和评分蒸馏技术,旨在实现图像处理中的图像生成与操控。该项目可以通过生成模型实现图像生成,并运用基于评分的技术对现有图像进行操控,提供了强大的图像编辑和生成能力。
AIGS是一个强大的工具,能够生成高质量的合成图像,支持多种图像生成模型,易于集成到现有的数据处理工作流中,并提供多种图像处理和分析工具。
第一个可以实时重建镜子的 3D Gaussian Splatting 方法,基于现实世界场景与镜子中对应物体之间的镜像对称性。
使用 ComfyUI AnimateDiff SDXL(Hotshot-XL)对电影《哈利波特》中的经典场面进行的二次元重制,旨在为观众带来全新的视觉体验。
EscherNet是一种可扩展的新型视图合成生成模型,无需3D结构,支持任何参考到任何目标新视图。该模型能够在单个消费级GPU上同时生成100多个一致的目标视图,处理任意数量的参考视图和任意相机姿势,建立在现有的2D扩散模型之上,继承强大的网络规模先验,并为每个视图/图像编码相机姿势,提供灵活性和可扩展性。
从零开始实现 Stable Diffusion,系统性讲解其工作原理和背后的数学,并提供训练一个扩散模型的步骤。
一款不错的长故事可视化工具,可以自动生成100帧漫画或动画的分镜图,故事的语义一致性比较好,不需要额外训练可以直接用,画面连贯性保持的可以,图片间逻辑清晰,人物场景也能保持一致。
一种基于生成扩散的高质量图像修复技术,可以从非常低质量的原图生成高清修复图。
StoryDiffusion专注于长程图像和视频生成,通过一致性自注意力机制生成连贯的图像和视频,创造魔法般的故事。项目支持生成复杂细节的图像和流畅的长视频,并引入语义运动预测器以提高生成的稳定性,适用于多种创意内容生成。
FABRIC是一种无需训练的方法,可使用迭代反馈来改进任何稳定Stable Diffusion的结果。用户只需通过简单的点击👍 / 👎来告诉模型他们的偏好,从而快速提高生成图像的质量,而无需耗费时间寻找合适的提示。
FeatUp 是一个与任务和模型无关的框架,用于恢复深层特征中丢失的空间信息,能够将任何模型特征的空间分辨率提高16-32倍,而无需改变其语义。
该项目通过图像和文本提示结合,利用GroundingDINO生成边界框,然后通过SAM生成分割掩码,支持多种输入格式,旨在提升图像分割的准确性和灵活性。
通过单个视频生成实时、交互式、逼真且与浏览器兼容的游戏环境。该项目利用神经辐射场(NeRF)模块高效捕获现实世界场景的几何形状和视觉外观,并通过网格模块和物理模块实现快速渲染和物体之间的相互作用。支持室内和大型室外场景的基准测试,用户可以轻松创建高质量的虚拟环境。
二维码AI生成是一个用于生成二维码的AI工具,支持多种艺术风格和高分辨率图像生成。用户可以通过输入文本提示,生成高达16K分辨率的二维码艺术图像,并自定义多种艺术风格和参数。该工具集成了先进的渲染引擎,能够创造出详细的景观绘画和摄影效果,适合各种创意需求。
RMBG-1.4是一个开源的图像背景移除工具,经过实测效果良好,支持多种图像格式,易于集成到现有项目中,适用于各类图像处理需求。
SegViT是一个基于纯视觉变换器的语义分割项目,旨在提高图像分割任务的效率和性能。它能够处理多种图像分割任务,适应不同的应用场景,为研究人员和开发者提供了强大的工具。