viser是一个用于Python的交互式3D可视化库,旨在为数据科学和机器学习提供易于使用的工具,通过多种3D图形类型展示数据。它能够与Jupyter Notebook无缝集成,支持用户创建动态的三维模型,展示算法效果。
qrGPT是一个AI驱动的二维码生成器,能够在几秒钟内生成美观的二维码,支持自定义内容,并集成了Vercel和Replicate平台。
Janus-Pro是DeepSeek发布的多模态大模型,专注于图像生成和理解。它采用自回归框架,通过分离视觉编码为‘理解’和‘生成’两条路径,提升了框架的灵活性和性能。该模型在图像生成、图像描述、地标识别、视觉常识、OCR等任务上表现出色,并在多模态理解和文本到图像生成基准测试中取得了SOTA性能。模型规模扩展至70亿参数,支持多种输入形式的理解和生成,适用于各种多模态应用场景。
SDT是一个基于深度学习的笔迹模仿模型,能够支持多种书写风格的生成和实时调整,兼容多种输入设备,旨在提升用户的书写体验。
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
为Flux模型实现区域注意力功能,通过添加区域注意力节点,使模型能够根据不同的区域和条件生成更精细的图像内容,提升图像生成的细节表现力和个性化程度
该项目通过Tensorrt技术加速SAM模型的推理过程,旨在提升图像分割的效率和性能,确保其在多种硬件平台上的兼容性,适用于各类深度学习应用。
ENFUGUE是一个功能丰富的稳定扩散Web应用,适用于桌面和服务器,提供高效的图像生成和多种定制选项,拥有用户友好的界面,能够满足不同用户的需求。
NanoSAM是一个经过蒸馏的Segment Anything (SAM)模型,能够在NVIDIA TensorRT上实现实时推理,适用于各种图像分割任务。
OpenGlass 是一款经济实惠的产品,用户只需 $20 就能将任何普通眼镜转变为 AI 智能眼镜。它支持多项先进的 AI 功能,帮助用户更好地记录生活、识别物体、计算卡路里,并进行实时翻译。
Cloudflare RAG是一个完全基于Cloudflare构建的全栈应用,支持与PDF文件进行交互,利用检索增强生成技术(RAG)。该应用集成了Cloudflare的多种服务,使得用户能够轻松访问和处理PDF内容,同时支持多种AI服务的切换。
自校正 LLM 控制的扩散模型,用于自动编辑任何图像或修复生成模型的文本到图像错位,无需额外训练。
Animate Anyone 是一个创新的工具,用户只需上传一张角色图片,便可生成与角色一致且动作可控的生动视频。该项目通过使用 OpenPose 技术,能够精确控制角色的动作,确保生成视频中的角色与原图外观一致。它支持多种类型的角色,包括真人和动漫角色,并提供稳定的效果演示。
vit.cpp是一个使用纯C/C++实现的视觉变换器(ViT)推理库,结合ggml库进行优化,旨在提供高效的图像分类解决方案,易于集成和使用,适用于各种项目和嵌入式系统。
Draw2Img是一个简单的网络用户界面,旨在为任何年龄和技能水平的用户提供互动式文本引导的图像生成。它允许用户通过输入文本描述生成新的图像,或上传已有图像进行文本引导的修改,同时具备实时预览功能,确保用户可以快速看到生成结果。
Portal是加载和可视化深度神经网络在图像和视频上的最快方式,基于TypeScript和React构建,并集成了Flask后端,提供高效的深度学习模型操作体验。
这个项目是一个精心策划的关于Stable Diffusion AI模型的优秀资源列表,包含各种工具、库和资源,提供使用Stable Diffusion的教程和指南,展示社区贡献和项目,并更新Stable Diffusion生态系统中的最新进展和项目。
GroupMixFormer是一种高效神经网络架构,基于Group-Mix Attention机制,旨在显著提升各种视觉任务的性能,特别是在图像分类、目标检测和语义分割等领域。
InstantID 是一种强大的基于扩散模型的解决方案,旨在从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时确保高保真度。
Stable Diffusion是一个用于生成高质量图像的深度学习模型,经过1.5版本更新,具有更好的性能和功能。
这是一个强大的Stable Diffusion Web UI扩展,利用Dreambooth技术提升图像生成能力,允许用户使用个性化图像训练自定义模型,并提供易于使用的界面来管理训练参数。
aiNodes Engine是一个简单易用的基于Python的AI图像和动画生成节点引擎,具备多种强大的功能,支持RIFE和FILM插值等特性,适合图像创作和动画制作的各类应用。
DreamArtist是一个为Stable-Diffusion-webui设计的扩展,旨在提供灵活的图像生成体验。用户可以通过友好的界面轻松上传图像,调整参数,选择各种生成风格,并实时预览生成过程。该项目还支持批量处理图像,极大提升了用户的工作效率。
imgpilot 是一个利用实时潜在一致性模型,将用户的草图转换为精美艺术作品的工具。用户只需简单的涂鸦操作,即可快速生成高质量的图像,支持在线使用,体验便捷。
非常强大的GPT网页客户端,开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架,支持语音合成、多模态、可扩展的插件系统。
Scribble Diffusion是一个开源项目,允许用户通过涂鸦与AI互动生成图像,提供了丰富的功能和易于使用的接口。
Coin-CLIP是一个开源的多模态模型,专为美国硬币的检索而设计。它结合了图像和文本数据处理能力,支持高效的硬币识别和分类,适合研究人员和开发者使用。
Anything-3D是一个强大的工具,结合了Segment Anything技术,支持对任意物体进行3D分割,旨在为用户提供便捷的3D模型创建和处理功能。它适用于多种3D应用场景,易于集成和使用,能够显著提高工作效率。
ZeST是一种零样本、免训练的方法,用于图像到图像的材料传输。它可以轻松扩展以在单个图像中执行多种材质编辑,并对纹理网格的渲染执行隐式照明感知编辑。
ChatGPT-Plus 是一个集成多个大语言模型的开源AI助手解决方案,提供了完整的运营管理后台,开箱即用,支持多种AI绘画和社交媒体工具的集成。