Regional Prompting FLUX是一个针对扩散变换器的无训练区域提示方法,旨在在缺乏训练数据的情况下有效调整模型。通过这种方法,用户可以在图像生成任务中使用区域提示,而不需要预先的训练过程。
Stable Diffusion长文本加权嵌入工具,突破77个token限制,为Stable Diffusion生成长文本加权提示嵌入,支持与Huggingface Diffusers兼容,适用于Stable Diffusion 1.5、SDXL和3版本,支持无限长度提示和权重调整
sd-ppp是一个能够将Photoshop与ComfyUI连接起来的插件,支持实时同步两边的结果,结合了Photoshop的手工调整与ComfyUI的自动AI工作流。它实现了与多个AI绘画工具的无缝沟通,支持多层、多文档协作,简化了工作流程。
Comfyui 已经支持 SD3.5,现在就可以用了,只需要更新最新Comfyui。
Nyarch是一个基于ArchLinux的二次元专用操作系统,集成了AI助理功能,并具备自动下载猫娘图片的能力,旨在为二次元爱好者提供便捷的使用体验。
ComfyUI-KepOpenAI是一个用户友好的GPT-4V API接口,支持图像与文本提示的智能文本生成,旨在提高内容生成的相关性和效率。该项目提供了直观的界面,使用户能够轻松生成高质量的文本内容,并与GPT-4V API高效兼容。
TCAN是一种基于扩散模型的新型人体图像动画框架,能够保持时间一致性并良好地推广到未知领域。它使用预先训练的ControlNet,增强了对姿势检测器异常值的稳健性,适用于多种姿势的视频合成任务。
LC-FDNet是一个利用频率分解网络进行无损图像压缩的项目,具有高效的压缩性能,能够在不损失图像质量的情况下大幅度减少图像文件的大小。该项目旨在优化存储和传输大规模图像数据的效率,适合需要高质量图像处理的应用场景。
CLIP Interrogator 2 是一个强大的工具,能够根据用户上传的图片自动生成相关的提示词,帮助用户更好地理解和使用图像内容。这款工具具有简单易用的界面,支持多种图像格式,并且能够快速提供反馈,极大地方便了用户的操作和需求。
VGSE是一个用于零样本学习的工具,利用视觉基础的语义嵌入技术,能够在没有标记示例的情况下进行图像分类和视觉数据的语义理解。
TurboEdit是Adobe研究院推出的一项新技术,用户可以通过输入文本描述来快速编辑图像中的元素,如头发颜色、衣服、帽子和围巾等,编辑速度快于0.5秒,提供高度的精确控制和灵活性。
苹果公司最新的多模态LLM引导的图像编辑(MGIE)工作,学会从简洁、有表现力的指令中学习,并提供明确的视觉导向以增强基于指令的图像编辑。
Text2Performer 可以通过文字凭空生成真人演员,包括他们的形象、衣着和动作,帮助创作者在多个领域中实现虚拟角色的快速生成与定制。
NExT-GPT是一个先进的多模态生成模型,能够处理文本、图像、视频和音频等多种输入,以任意组合生成丰富的输出。它仅需调整少量参数,具有低成本训练的优势,同时具备复杂的跨模态语义理解和内容生成能力,适合扩展到更多的应用场景。
NeMF是基于神经运动场的运动动画建模技术,旨在高效生成流畅的动画效果,处理复杂的运动场景。
VisionCrafter是一个具有图形用户界面的工具,支持AnimateDiff和其他项目,能够从文本生成动画和音乐。它非常适合制作短视频和GIF,以及创建简短的电影场景。
QA-CLIP是一个支持中文文本和图像的多模态理解的模型,具有最先进的性能和准确性,能够用于多种下游任务,如图像分类、文本生成等,且易于集成和使用。
MIMO是一个具有空间分解建模的可控角色视频合成项目,能够通过单个图像生成具有可控属性的视频,支持灵活的2D视频编码和3D动画生成,适用于交互式现实世界场景。
Leffa是Meta公司与同济大学等共同研究的虚拟换衣技术,通过注意力学习流场实现可控的人像生成。该技术支持虚拟试衣和姿态迁移,能够精确控制人物的外观和姿势,减少细节失真问题。Leffa在A100 GPU上仅需6秒生成一张图像,并提供Gradio界面和HuggingFace平台体验。
ZoeDepth是一个集成在Stable Diffusion WebUI中的图片成面工具,旨在为用户提供更好的图像处理体验。
ExAvatar 是一种富有表现力的全身 3D 高斯虚拟人,结合了短单目视频学习到的全身参数网格模型和3D高斯溅射,能够呈现新颖的面部表情和姿势。同时,它能够有效处理视频中的模糊性和伪影,利用基于连接的正则化器减少伪影,确保生成的虚拟人更加真实和生动。
AI深度图项目利用人工智能技术生成深度图,可输出立体动画,并将深度图保存为蒙版,方便在Photoshop中实现虚化效果。可以根据不同深度进行虚化,提升图像表现力和视觉效果。
FLUXSwift是FLUX.1模型的Swift实现,利用mlx-swift库在苹果硅芯片上进行GPU加速,旨在高效生成图像。
FP-DETR是一个通过全预训练提高目标检测准确性的检测变换器。
该项目提供了Vision Transformer在Tensorflow中的完整实现,支持多种数据集和任务,易于扩展和修改,并包含详细的使用示例和文档,帮助用户快速上手并深入了解模型的应用与性能。
DDColor,可以为历史黑白老照片提供生动、自然的彩色化。它甚至可以为动漫游戏中的风景着色,将你的动画风景转换成逼真的现实生活风格。
TextureDreamer 是一种可以将 3-5 个图像中的逼真、高保真和几何感知纹理放置到任意 3D 网格上的方法。
LucidDreamer是一种新的3D场景生成技术,它不受特定领域的限制,可以生成更接近真实世界的3D场景。该技术通过递归的Dreaming和Alignment步骤,结合细粒度控制,提供了高质量的场景生成体验。
Lumina-mGPT是一个多模态自回归模型家族,专注于从文本描述生成高质量的图像,能够处理多种视觉和语言任务,具备强大的生成能力和灵活的应用场景。
精心整理的视觉自回归建模工作列表,涵盖了图像、视频、3D、多模态生成等领域