EasyPhoto是一款Webui UI插件,用于生成AI肖像画,该代码可用于训练与您相关的数字分身。
该项目能够根据上传的音乐文件生成对应的视觉图像,适用于视频制作和艺术创作,能够将音乐与视觉艺术结合,为创意项目提供灵感。
ReplaceAnything是一款能够准确保留指定物体,并通过输入提示词,实现超高质量内容替换的工具。它支持多种场景应用,适用于商用场景如AI模特、商品宣传图和艺术写真照。
SPARC是一种用于从图像-文本对中预训练更精细的多模态表示的方法,通过在描述中的每个token上学习图像块的分组来实现。
Diagen是一款通过AI技术将复杂数据转化为美观图表的工具,支持多种图表类型,让数据可视化变得简单快捷。
一个用户友好的框架,用于根据文本描述创建逼真的 3D 头像,能够在 2 分钟内生成具有详细面部特征、头发和服装的3D角色。
针对 ComfyUI 的 PuLID Flux 增强版本,用于图像处理和生成,支持多种图像融合方法和快速自训方法,以及灰度与 RGB 图像之间的切换。
IDM-VTON项目旨在通过改进的扩散模型,提升服装试穿的保真度与真实感,生成高质量的虚拟试穿图像,结合高级语义与低级特征,增强视觉效果的真实性,并通过详细的文字提示优化生成结果。
实时潜在一致性模型(real-time Latent Consistency Model),可以根据用户屏幕实时生成内容。该模型利用屏幕捕捉API,能够与现有绘图工具兼容,提供实时反馈,帮助用户高效创作。
提供了 ComfyUI 的 BiRefNet 插件,支持多种预训练模型的使用,包括通用、人像、图像分割等场景的模型,并且支持自动下载模型文件。
一个利用代理框架进行视觉任务的库,能够快速生成代码,帮助用户完成图像识别任务,简化视觉问题的解决过程。
traiNNer是一个基于PyTorch的深度学习框架,旨在实现图像和视频的超分辨率、恢复以及图像到图像的翻译。它提供了灵活的模型结构,支持多种功能,适用于不同的图像处理需求。
一个根据图片生成prompt的开源工具,实现了类似于 Midjourney新推出的 /describe 功能。该工具利用先进的神经网络模型,能够将中文描述翻译为英文,并扩展关键词,以生成适合Midjourney的完整prompt。
6DGS是一个基于3D高斯点云模型的项目,旨在从单幅图像中进行物体的6D姿态估计。该技术在机器人视觉和增强现实等领域具有重要应用价值。
cloudflare-ai-web是一个集成了GeminiPro Vision、Cloudflare Workers AI和ChatGPT的Web平台,旨在提供强大的AI处理能力和友好的用户体验。该平台的架构可扩展,便于开发者创建个性化的AI应用程序,并与其他Web服务无缝集成。
img2img-turbo是一个高效的图像转换工具,基于SD-Turbo技术,能够快速将输入图像转换为新的风格或形态,支持多种输入格式,并提供用户友好的界面和可调节的转换参数。
一个一键整合包,上传一段视频即可让图片唱歌说话,甚至可以驱动动物表情!
PlotAI利用大型语言模型生成Python和Matplotlib的图表生成代码。用户只需提供DataFrame和一个提示,PlotAI会自动构建适合LLM的提示,并返回相应的Python代码和图表。
DiffBIR是一个基于扩散模型实现盲影像复原的项目,支持多种类型的图像,包括动漫、人物、风景和物品等,旨在有效处理盲图像问题,适用于多种应用场景。
CreatiLayout是一个通过布局和文本提示生成高质量图像的框架,旨在帮助用户实现更具创意的视觉效果,适用于各种创意设计应用。
Xlabs Flux Lora是一个用于比较有无Lora效果的工具,通过相同的种子和prompt,用户可以轻松查看两者的生成结果差异。该项目支持多种模型设定,并提供了一个用户友好的界面,方便用户进行实验和探索。
med-flamingo是一个基于OpenFlamingo-9B和LLaMa-7B构建的模型,能够在医学领域执行少样本的视觉问答任务。该项目结合了CLIP ViT/L-14视觉编码器,并使用约4.7K本医学教科书进行训练,包含0.8M张图像和548M个token,支持1.6M个图像字幕对的生物医学数据集。
分享一个端到端的开源 OCR 模型,号称 OCR 2.0,支持场景文本、文档、乐谱、图表、数学公式等内容识别,拿到了 BLEU 0.972 高分。
专注于动画制作的生成式AI工具库,汇集了最新的论文、项目和数据集,旨在帮助动画创作者利用AI技术提升创作效率和质量,让动画制作更加简单高效
Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。
FilmRemoval项目旨在利用偏振先验技术,有效去除透明薄膜上的皱纹,从而改善图像质量。该方法通过学习与薄膜的光学特性相关的模式,能够在图像处理和摄影中实现显著的视觉清晰度提升。
一个使用文字输入生成三维模型的AI工具,支持图片prompt的应用方向。该工具能够生成带颜色的三维模型,并且能够输出带顶点色的obj和ply格式。用户可以在Colab上运行它,并且它与主流建模软件(如Blender、Rhino)兼容。
AttnGAN是微软开发的一种人工智能图像生成器,能够根据用户提供的文本描述生成对应的高质量图片。它通过训练模型使其理解文本与图像之间的关联,从而在生成图像时能够关注到文本描述的不同部分,确保生成的图像与描述内容高度一致,具有较强的实用性和灵活性。
面向低级视觉的扩散模型相关论文资源列表,包括了各种扩散模型在低级别视觉任务中的应用,如自然图像恢复、超分辨率、修复、去雾、低光增强等。这些模型在不同领域,包括医学图像分析、遥感图像处理等方面都有应用。
基于FLUX.1的IPAdapter模型的ComfyUI插件实现,支持通过参考图像来控制生成结果。该项目提供了完整的模型权重和工作流程,可在ComfyUI中快速部署使用,同时也支持在线体验版本。