一款方便的图像编辑工具,允许用户快速进行局部图片编辑。它提供简单易用的界面,让用户可以轻松上传图片,选择需要编辑的区域,并实时预览修改效果,最终下载编辑后的图片。
Flux是由Stability AI原来Stable diffusion的创始成员打造的生成图像项目,生成图像的质量与midjourney不相上下,甚至更好!
Yolov7 Flask是一个美观的Flask Web API,支持Yolov7及自定义模型的推理,用户可以方便地上传图片并进行实时物体检测,适用于本地和云环境的部署。
Magi是由牛津大学学生Ragav Sachdeva开发的项目,能够识别漫画中的文本块,并自动将其与漫画中的人物对应,实现对漫画内容的自动转录。
Kolors-Virtual-Try-On 是一款提供虚拟试衣功能的应用,用户可以通过上传照片和选择服装,实时体验不同风格的穿搭,适合喜欢时尚和购物的用户。
rgbx 是一个开源模型,能够根据输入的图片自动生成环境光遮蔽(AO)、法线图和粗糙度图,从而实现从单张照片反推出多层图像的功能,方便用于3D建模和游戏开发。
基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型,建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。
基于ComfyUI的AI生成艺术工作室,可用于生成艺术品、资源或动画,提供脚本工具和动态界面,以进行实时人工反馈、策展和指导。
DS-Fusion可以根据文字含义自动生成艺术字,同时还能确保文字的阅读性,功能强大且实用,非常适合设计师和内容创作者使用。
MyVLM使得大规模视觉语言模型(VLM)能够学习和推理用户个性化的信息,定制模型以反映用户的个人经历和关系。
WonderWorld是一个开源项目,通过用户输入的图片生成多样化且可互动的3D场景,包含自然、城市和幻想等主题。它利用先进的Fast Layered Gaussian Surfels (FLAGS) 技术,大幅提升了生成速度,支持动态路径布局,适合各种交互操作。
这是一个相机图像信号处理器(ISP)的软件实现,能够将简单的传感器输入图像转换成色彩丰富、细节清晰的输出图像,让图像质量大幅提升。
该工具通过智能算法,实现一键P图,自动适应光线角度和透视,极大地简化了图片处理流程,适合用户快速修图和调整图片效果。
Omegance是一个用于扩散基础合成的项目,通过单一参数支持多种粒度的控制,旨在为创意AI项目提供灵活的输出生成能力。
LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型,类似于GPT-01,具有强大的多模式处理能力。该模型通过11B参数的强大架构,支持复杂的视觉语言任务,并在多模式基准测试中表现优于多个现有模型。
适用于Automatic1111/stable-diffusion-webui 的Openpose Editor 插件,用户可以直接编辑骨骼动作,并从图像中识别姿态,实现动画效果的自定义。该插件与稳定扩散 web 用户界面无缝集成,提供友好的操作体验。
融合图像聊天、分割和生成/编辑的AI应用概念验证项目,基于LLaVA、SEEM和GLIGEN三个相关开源项目实现。
BlinkShot是一个实时AI图像生成器,能够快速生成高质量的图像,支持自定义分辨率和生成步骤,适合艺术创作和设计领域。
提供了一组自定义节点,用于在 ComfyUI 中增强基于区域的条件化控制,并提供了一个视觉面板以便用户预览这些区域在图像中的定位和缩放。该项目旨在提升用户在图像生成过程中的灵活性和可视化效果,确保用户能够更好地控制生成的内容。
voltaML-fast-stable-diffusion是一个轻量级库,通过简单的一行代码实现对Stable Diffusion模型的加速,速度提升可达10倍,支持Dreambooth的快速推理,方便用户进行机器学习和深度学习项目的快速部署和集成。
一个致力于医学应用的视觉语言模型集合,旨在解决通用模型在医学领域的挑战,并与专家分割和分类模型集成。
一种利用2D扩散先验进行合理网格变形的方法,能够确保变形后的网格在视觉上保持合理性。
在本地运行开源分割任何模型的工具(受Ollama启发),提供原始SAM和高效SAM等分割任何模型,本地API(CLI、Python和HTTP接口),以及自定义功能,可托管自定义视觉模型
Janus是一个多模态理解和生成一体的模型,能够同时理解图片内容并生成新图像。它通过解耦设计来满足理解和生成任务对视觉编码器的不同需求,采用统一的自回归变换器架构处理各种模态的输入。
一个帮助生成幼儿图画故事的项目,用户只需与程序对话即可快速创建故事内容。该项目提供简单易用的界面,支持多种主题和风格,适合不同语言用户,且可定制故事长度和内容。
VideoGigaGAN是一种视频超分辨率(VSR)方法,能够生成具有高频细节和时间一致性的视频,扩展自GigaGAN。该项目通过将视频放大8倍,显著提高上采样视频的时间一致性,确保生成的画面在细节和流畅度上都达到高标准。
CMT是一个结合卷积神经网络和视觉变换器优势的项目,旨在提升图像分类和目标检测的性能,具有广泛的应用前景。
CogVideoX-Fun 是一个强大的工具,支持从图片生成视频,并能在任意分辨率下生成高质量视频,适用于各种AI图像和视频创作需求,同时支持训练基线模型和Lora模型。
RPG是一种新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的强大推理能力来增强文本到图像扩散模型的组合性。该系统将生成复杂图像的过程分解为子区域内的多个简单生成任务,实现区域化的组合式生成,集成文本引导的图像生成和编辑,显著提高了泛化能力。
基于 AbdomenAtlas 3.0 数据集的腹部 CT 扫描图像和医学报告的先进分割与报告生成模型,专为医学影像领域提供高质量的辅助诊断工具。该项目致力于提升医学影像分析的效率和准确性,支持医学专业人员在临床决策中做出更好的判断。