又一个非常好的 FLUX Lora,有一点吉卜力的风格,具有丰富的细节和高饱和度,生成的图片非常梦幻。
PixelLM 是一种有效且高效的像素级推理和理解 LMM,专注于多目标推理分割和与文本描述结合的实例级分割等任务。
krea.ai是一个专注于美食相关图像生成的人工智能平台,提供逼真的静物表现,具备景深效果和模糊背景,旨在提升美食摄影的艺术感与视觉吸引力。
Animate-X 是一个通用角色图像动画项目,旨在通过增强运动表现和全面的运动模式捕获,支持各种角色类型的动画制作。它基于 LDM 框架,利用源视频的 CLIP 视觉特征,为角色动画提供高质量的输出。
SVFR是一款视频人脸修复工具,能够让模糊、破损的视频人脸变得清晰、完整,同时支持黑白视频上色,修复视频中的划痕和污点,使老视频焕然一新。
Ruined Fooocus Wildcards 项目支持通配符功能,允许用户在提示中使用通配符,从而提升AI图像生成的效果。用户可以通过指定颜色和风格参数,实现复杂的图像生成,并能与各种创意工具进行集成,参与社区讨论。
一种使用球面高斯约束引导条件扩散过程的方法。该方法旨在通过约束条件扩散过程中的生成能力,以提高生成模型的性能和图像质量。
RoomGPT 是一个利用人工智能技术,帮助用户重新设计和美化房间的工具。用户可以上传房间照片,系统会根据不同风格生成全新的房间图像,无需身份验证或支付,操作简单,便于部署和试用。
Stable Diffusion 3.5 Medium是一个轻量级的图像生成模型,具有较低的显存需求和更快的生成速度,适用于显存有限的设备。该模型在生成高质量图像时,能够节省3~4G显存,并且生成速度比Large模型快2.5倍,40步采样仅需10秒即可生成1M像素的图片,整体审美和细节表现良好。
Stable Diffusion Conceptualizer集合了众多非常好用的SD Text Inversion插件,这些插件可用于SD生成不同风格的图片。它提供用户友好的界面,支持多种风格的图像生成,并且能够输出高质量的图像,非常适合艺术创作和设计项目使用。
Probable Motion项目通过预测可能的运动模式,提供了一种无监督的多目标分割方法,能够在视频帧中精准地识别并分离出多个对象。该方法在处理复杂场景时表现出色,尤其适用于动态视频数据的分析和理解。
一种计算效率高的多模态混合专家模型,能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。
MagicQuill 是一个开源的 AI 互动式图像编辑工具,用户只需通过画笔涂抹和简单提示词即可轻松实现各种图像编辑操作。它支持精准的图片编辑,旨在提供用户友好的界面和AI支持的建议,帮助用户轻松完成创作。
Yomitoku是一个专为日语设计的AI驱动文档图像分析软件包,具备强大的文字识别和布局分析能力,支持多种输出格式。
DoomPDF 是一个用于生成游戏画面的工具,旨在通过集成 AI 技术来实时生成高质量的游戏画面。
ProsePainter 是一个通过文字描述自动生成图像的艺术创作工具,它结合了直接数字绘画与实时引导的机器学习图像优化,为用户提供直观且友好的创作体验。
TorchCodec是一个专为PyTorch设计的视频解码工具,提供简单快速的API,可以将视频帧解码为PyTorch张量,方便机器学习模型的处理。用户需自行安装FFMPEG以支持多种视频格式的解码。
OpenPromptStudio 是一个开源的 AIGC (Midjourney)提示词可视化编辑小工具,旨在帮助用户更高效地管理和使用提示词。它支持英文与中文的相互翻译,分类管理提示词,并能导出可视化结果,极大地提升了用户的创作效率。
Densely Captioned Images (DCI) 数据集旨在为图像提供详细的描述,以捕捉视觉细节,适用于计算机视觉领域的多种任务。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Tactile DreamFusion项目利用触觉传感器进行三维生成,旨在增强虚拟现实和机器人技术中的环境感知能力。该项目通过高效的三维重建技术,使得触觉反馈的生成成为可能,进而实现更加真实和互动的体验。
利用 TripoSR 模型从 2D 图像中推断出 3D 形状和纹理数据。该项目通过深度学习技术,能够从单张2D图像生成高质量的3D网格,支持用户进行手动几何编辑和纹理烘焙,极大地提高了生成效果和灵活性。
Watermark-Removal是一个基于机器学习的图像修复工具,能够高效地去除图片上的水印,并且处理后的效果与原图几乎无差异。该工具支持多种使用场景,包括在Google Colab上运行或本地部署,适合高性能计算机,能够处理多种类型的水印,使用深度学习技术确保修复效果的高保真度。
Magic123可以从一张图片生成高质量的3D物体,与以前的图像到三维技术相比,有显著的改进,适用于多个领域如游戏、工业设计等。
利用AI技术实现文本到图像和图像到图像的转换,提供高效、直观的图像生成体验。支持文本描述生成图像,以及对现有图像进行风格转换和修改,基于Flux潜在纠正流变换器,具有简洁的推理代码,方便用户使用和集成。
Stable Diffusion 3.5是一款用于简单推理的AI模型,能够快速生成高质量的图像,支持多种文本编码器和核心MM-DiT技术,让图像生成变得更加便捷。
该项目通过粗到细的潜在扩散方法合成各种姿势的人物图像,增强图像生成的灵活性和真实感。
通过混合低秩专家模型增强人本中心的文本到图像扩散,旨在生成更高质量的图像,适用于艺术创作等领域。
MiniGPT4-Video是一个专为视频理解而设计的多模态大模型,能够同时处理时态视觉数据和文本数据,善于理解视频的复杂性,适用于多种视频内容的分析和处理任务。
Towhee 是一个开源的嵌入框架与社区,旨在帮助用户使用深度学习的方法处理非结构化数据,如图片、视频和自然语言。