Cogview3 是一种通过中继扩散技术实现更精细、更快速的文本生成图像的项目。它利用先进的中继扩散技术,能够在短时间内生成高质量的图像,满足从艺术创作到实际应用的多方面需求。
Blind2Unblind 是一种自监督图像去噪方法,特别针对可见盲点进行处理。它能够在没有干净图像作为监督信号的情况下,通过自监督学习实现图像去噪,尤其擅长处理图像中的盲点问题。
ConsiStory是英伟达研发的无训练框架,专为一致性图像生成而设计,支持SDXL和Stable Diffusion 3等主流架构。该框架通过先进的注意力机制和特征共享技术,确保在多人场景中主体一致性保持率高达98%,并在性能上较ControlNet提升23%。此外,ConsiStory还提供了布局多样性控制功能,允许随机生成背景的同时保持主体不变,同时兼容多种文生图模型,适用于广泛的图像生成任务。
KV-Edit是一款无需训练的精准图像编辑工具,能够在编辑过程中保持背景的一致性,确保编辑前后无差异。它支持多种硬件配置,适应性强,适用于各种图像处理场景。
neosr 是一个开源的超分辨率模型训练框架,旨在简化图像恢复过程。它支持多种架构和数据集,提供高效的训练能力,适用于各种图像恢复任务。
LLaMA-Mesh是一个生成3D模型的大模型,支持通过对话方式生成和修改3D模型。它能够理解和解释3D模型的结构和特征,为用户提供直观的3D模型交互体验。该项目结合了自然语言处理和3D建模技术,使得用户可以通过简单的对话指令来创建和编辑复杂的3D模型。
AniLines-Anime-Line-Extractor是一款专门用于从动漫图片和视频中提取清晰线稿的工具。它提供了两种处理模式,包括基础模式和细节模式,后者能够提取更多背景和边缘线条。此外,该工具还支持视频处理,可以直接生成线稿视频,并支持二值化输出,满足动画制作的需求。
该项目提供了一个具有骨骼和肌肉的非刚性手模型,能够进行生物力学仿真和实时动画,适用于动画和游戏开发。
SmolVLM2 是一个非常小的视觉模型,提供 256M、500M、2.2B 三个版本,能够识别物体、回答问题和对视频做总结。该模型设计轻巧,适用于移动设备,如 iPhone,能够高效执行多种视觉任务。
DiffBFR是由美图与国科大联合提出的一种人脸修复方法,专注于从低质量的人脸图像中恢复高质量的人脸图像,特别适用于盲人脸恢复(Blind Face Restoration, BFR)任务。该方法基于扩散概率模型(Diffusion Probabilistic Models, DPM),能够较好地拟合长尾分布,并通过两个核心模块——身份恢复模块和纹理增强模块,分别实现逼真度的还原和真实细节的增强。
Direct3D 是一个能够将2D图像直接转化为高质量3D模型的项目。其核心价值在于无需复杂的优化或多视图扩散模型,仅需单张图片即可生成高精度的3D形状。该项目通过高效编码高分辨率3D形状,并采用创新的半连续表面采样策略,直接监督几何形状的生成。预训练模型在生成质量和泛化能力方面表现卓越,使其成为3D建模和图像生成领域的创新工具。
ComfyUI-WanVideoWrapper是一个专为在本地运行通义万相视频模型而设计的ComfyUI节点。该项目允许用户在本地环境中测试和运行通义万相视频模型,并支持多种模型版本。未来,ComfyUI官方预计会推出量化模型,进一步提升本地运行效率。
PaliGemma 2是Google发布的新一代视觉模型,主要在OCR、图像分割和问题回答等方面进行了显著增强。该模型能够更准确地识别图像中的文字,更精细地分割图像中的对象,并更智能地回答与图像内容相关的问题。
YOLOExplorer是一个用于快速迭代和处理计算机视觉数据集的工具,支持使用简单的API进行SQL筛选、向量语义搜索以及与Pandas的本地接口等功能,帮助用户高效管理和分析视觉数据。
Diffuse to Choose是一种基于扩散模型的图像条件修复技术,专为虚拟试穿场景设计,能够在快速推理的同时保持高保真细节,并确保语义操作的准确性。该模型通过将参考图像的细粒度特征直接合并到主扩散模型的潜在特征图中,并使用感知损失进一步保留参考项的细节,从而在图像修复和增强方面表现出色。
YOLOv12是YOLO系列的最新版本,专注于实时目标检测和特定物体的跟踪。相比于YOLOv11,YOLOv12在延迟和准确性上都有1-2%的提升,采用强大的注意力机制,显著提升了性能。该模型在T4 GPU上仅需1.64ms完成推理,mAP高达40.6%,超越了同级别模型。YOLOv12广泛应用于实时监控、自动驾驶、工业自动化等领域,支持在各种设备上进行实时推理。
ChatWise是一款为任何大型语言模型(LLM)提供加速的AI聊天机器人工具。它能够完全离线运行(除需外部API的LLM外),支持多模态输入,包括文本、PDF、音频和图像,并提供了文本转语音功能,支持OpenAI和ElevenLabs。
由普渡大学Stanley H. Chan教授发布的扩散模型在图像和视觉领域的教程,详细讨论了扩散模型的基本思想,适合有意从事扩散模型研究或应用的本科生和研究生。教程内容涵盖了扩散模型的基础概念、生成工具在图像和视频生成中的应用,以及相关的学习资源。
R1-Onevision是一个基于Qwen-VL架构的视觉模型,具有强大的推理能力,模型大小为7B。它能够处理复杂的视觉推理任务,适用于图像理解和分析,同时支持多模态学习任务。
微软发布的 Phi-4 多模态模型,具备图转文、图转声音、声音转文的能力,并有一定的推理能力。该模型适用于嵌入式设备或特殊领域的移动设备,能够在多种场景下实现多模态数据的转换和处理。
Ovis-2是一个视觉大模型,具备强大的图像和视频识别能力,尤其在OCR方面表现卓越。虽然其推理能力目前定位为辅助识别,但建议在实际使用中结合其他推理能力更强的大模型,以实现更全面的功能。
Yolo_Label是一款专为训练YOLO神经网络设计的图像对象边界框标记工具。该工具通过高灵敏度的标记方法和简化的操作流程,显著减少了用户在标记过程中的手腕疲劳。其设计旨在优化图像标注流程,提高对象检测的准确性,特别适用于需要大量标注数据的YOLO神经网络训练场景。
TRIDENT 是一款专为大规模全切片图像处理设计的工具,旨在提升病理图像分析的效率和便捷性。它支持多种基础模型和滑片特征模型,能够高效地进行组织分割和补丁提取,为病理研究提供强大的技术支持。
olmOCR是一款开源的高性能OCR模型,专门用于将PDF和文档图像转换为清晰、结构化的纯文本。它基于微调后的7B视觉语言模型,支持处理复杂布局、表格、方程式以及手写文档,输出为Markdown格式。olmOCR完全开源,包括模型权重、数据和训练代码、推理代码,支持在4090显卡上本地运行。处理100万页PDF的成本约为190美元,性能优于Marker、MinerU以及GOT-OCR 2.0等工具。
Janus-Pro-7B是DeepSeek发布的一款视觉多模态模型,支持384x384分辨率的图像输入,并具备强大的图像生成功能。该模型结合了视觉和语言处理的多模态能力,能够在普通电脑上高效运行,适用于多种视觉和多模态任务。
SkyReels-V1-Hunyuan-I2V是基于腾讯混元文生视频微调的图生视频模型,适用于comfyUI平台。该模型主要针对以人为主体的数据,能够捕捉33种独特面部表情,并拥有超过400种自然动作组合。它在开源社区中属于较为先进的图生视频模型,提供了无需充值会员的视频生成解决方案。
DiffusionKit是一个专为Apple Silicon芯片设计的扩散模型设备端推理工具,利用Core ML和MLX技术实现PyTorch模型的转换与图像生成。它支持文本到图像和图像到图像的生成功能,能够在Apple Silicon设备上高效运行,生成高质量的图像内容。
MedRAX是一款强大的AI辅助诊断工具,专为胸部X光检查设计。它集成了多种先进的医学图像分析工具,支持检测、分类、定位等多任务处理。通过2500个复杂医学问题的基准测试,验证了其卓越性能。MedRAX支持本地和云端部署,灵活适配不同需求,能够分析胸片细节及病变并标注位置,识别18种病理类型,生成诊断报告。此外,它还支持交互对话,理解复杂的医疗查询,并根据任务自动选择合适的工具和分析方法,进行多步医学推理。
这是一个优化版的结构相似性(SSIM)度量工具,专为高性能计算设计,能大幅提升图像质量评估的速度和效率。通过CUDA优化,减少了计算冗余,显著提升了性能,适用于深度学习中的图像质量优化任务。
YOLO-NAS是一个全新的目标检测模型,其在性能上超越了之前的目标检测模型,尤其适用于小型设备。该模型完全开源,具有高效的实时处理能力,特别适合在边缘设备上应用。通过利用流行的注意机制,YOLO-NAS显著提高了小物体检测的准确性和物体定位的精度,使其成为计算机视觉任务中的理想选择。