提供了一个用于图像平铺和高级控制修改的工具集,专为简单逻辑的惊人上采样节点工作流程设计,支持 Flux、Hunyuan 和 SD3 等 DIT 模型的常见应用。
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
ProPainter 是一款基于E2FGVI技术的视频处理工具,能够一键移除视频内的移动物体和水印,提供简单高效的视频编辑体验。
DimensionX 是一个创新的工具,可以从单一图像创建任意3D和4D场景,采用可控的视频扩散方法,结合维度变化的数据学习,使得用户能够精确操纵空间结构和时间动态。该项目还实现了3D生成的轨迹感知机制和4D生成的身份保留去噪策略,旨在为用户提供更加灵活和高效的场景生成体验。
VIGC(Visual Instruction Generation and Correction)是一个用于生成和修正视觉指令的项目,旨在提高视觉任务的效率和准确性,适用于多种视觉任务。
WeCLIP是一个强大的语义分割模型,基于冻结的CLIP结构,致力于弱监督学习,通过有效的特征提取提升图像分割的性能,适用于各种计算机视觉任务。
LongPrompt-LLamaGen是一个提升版的LLamaGen模型,融合了长文本提示和最前沿的AI技术,旨在为创意人士和开发者提供前所未有的图像生成能力。该模型不仅支持长文本提示,还通过增强的生成效果和多样性,满足用户对创意和质量的双重需求。
Neural Mixture Guiding是一种基于GPU原型实现的神经参数混合引导技术,专为加速路径追踪渲染而设计,提供了高效的解决方案,特别适合用于GPU并行渲染,能够提升渲染速度和质量。
阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型,结合了图像和文本输入,能够生成准确的文本和边界框输出,增强了图像描述、问答、定位和文本-图像理解等任务的能力。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
该项目提出了一种通过静态和动态元素的解耦来进行视频蒸馏的方法,旨在从静态图像中提取视频信息,提升视频理解能力。
AI no jimaku gumi 是一款利用人工智能技术为视频自动添加字幕的工具,能够有效简化翻译过程,显著提高字幕制作的效率,支持多种语言,适合各种用户使用。
OminiControl是一个极简且通用的控制框架,基于FLUX模型,专为高效控制扩散变换模型而设计。它通过仅增加0.1%的参数,无需改变基础模型结构,支持主体驱动控制和空间控制(如边缘引导和图像修复)。该框架适用于多种复杂视觉任务,包括边缘到图像、深度到图像、上色、去模糊和图像修复等。
隐式非线性扩散模型的最大似然训练,旨在通过学习复杂数据分布来提升生成模型的性能。
该项目是一个基于PyTorch实现的Spatial Transformer Network (STN),采用Thin Plate Spline (TPS)技术进行空间变换,能够灵活地对输入图像进行几何变换,支持高效的训练与推理。
DoubleTake 是一个几何引导的深度估计项目,旨在高效处理稀疏视图,以提升计算机视觉任务中的深度估计精度。
一个关于基于扩散模型的图像编辑方法的文献汇总项目,旨在为研究人员和开发者提供全面的参考资料,涵盖各种图像编辑任务,包括生成、修复和转换,同时提供相关论文的链接与总结,确保信息的及时更新和获取最新研究成果。
MimicTalk是一个能在短时间内生成个性化和表现力丰富的3D说话面孔的项目,适用于各种实时应用场景。
DenseMatcher是一个用于3D语义匹配的工具,能够从单一示例中学习类别级别的操作,实现高效的3D形状匹配。它支持多种3D形状的处理,适用于机器人抓取、增强现实等多个领域。
ZoeDepth是一个利用深度学习技术从2D图像生成3D模型的工具,经过12个数据集的训练,专注于深度估计和3D模型生成。
利用 AI 进行实时语音绘图的工具,通过语音输入生成图像,支持语音控制绘图。
LISA是一个将语言大模型(LLM)与其他视觉模型(如SAM)结合的分割助手,旨在根据复杂和隐含的查询文本输出分割掩码。
SaltAI_Language_Toolkit是ComfyUI平台的增强型语言处理工具,集成了检索增强生成(RAG)工具Llama-Index、微软AutoGen和LlaVA-Next,旨在提升平台的功能和用户体验,提供更高效的语言处理能力。
MultiPly是一个通过野外单目视频重建多人3D图像的项目,能够处理人物之间的遮挡和相互作用,使用先进的神经表征技术进行场景建模,并结合自监督的3D分割及可提示的2D分割模块,提供高效的人体姿势和形状优化。
MVDD利用多视角深度和扩散模型来表示复杂的三维形状,并将其映射到二维数据格式中。该模型能够生成高质量、密度较高的点云,包含细致的细节,点数可达20,000个以上。
HouseCrafter是一种新颖的方法,可以将平面图提升为完整的大型3D室内场景(例如房屋),通过先进的技术实现高质量的视觉效果和准确的空间布局。
本文介绍了扩散状态空间模型,这是一种用更可扩展的状态空间模型作为基础的架构,取代了传统方法。这种方法可以有效处理更高分辨率的图像,而无需进行全局压缩,从而在整个扩散过程中保留了图像的详细表征。
MiniCPM-o 是一款轻量级多模态大语言模型,具有8B参数,能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理,性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能,支持多语言和多模态实时流媒体处理,广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。
来自艾伦人工智能研究所(Allen Institute for AI)的新模型Unified-IO 2,能够处理图像和语言的多模态模型之一。
GFlow是一个从单目视频恢复4D世界的框架,旨在在没有相机参数和多视角视频输入的情况下重建动态4D场景。该项目利用2D先验信息(如深度和光流)将视频提升为4D显式表示,并能够在无监督的情况下从场景中分割移动物体,同时提供每帧的相机姿势以支持新视图渲染。