ComfyUI-Janus-Pro 是一组为 ComfyUI 设计的自定义节点,集成了由 DeepSeek AI 开发的 Janus-Pro 框架,这是一个统一的多模态理解和生成模型。它为 ComfyUI 带来了强大的多模态理解能力,使 AI 创作过程更加智能和高效。主要功能包括图像理解、生成描述和光学字符识别(OCR),支持 Janus-Pro-1B 和 Janus-Pro-7B 模型,适用于多种图像处理任务。
MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型,专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型,通过轻量级下采样投影器(LDP)实现语言和视觉的交互与融合。MobileVLM在多个视觉语言任务上表现优异,推理速度快,适合在移动设备上运行。
Oscar(Object-Semantics Aligned Pretraining)是一款能够根据图像内容生成精准文本描述的AI模型。它通过学习图像和文本之间的语义关系,能够理解图片中的对象、场景以及它们之间的关系,从而生成详细且符合语境的文字描述。Oscar不仅能进行图像描述,还可以用于视觉问答和跨模态检索,是跨领域图像与文本理解的有力工具。
苹果公司推出的基于图结构的图像描述生成工具,通过将图像区域描述通过图结构连接,提升描述的完整性和逻辑性,使图像描述更精细、更结构化。同时,该工具还提供从文本到图像的生成能力,支持多种模型和配置。
Namo-R1是一款仅需CPU即可实时运行的500M参数视觉语言模型,能够轻松超越Moondream2和SmolVLM。它不仅支持多语言OCR和图像描述等复杂任务,还完全开源,提供训练脚本和数据,便于用户进行二次开发和部署。
Janus-Pro-7B是DeepSeek发布的一款视觉多模态模型,支持384x384分辨率的图像输入,并具备强大的图像生成功能。该模型结合了视觉和语言处理的多模态能力,能够在普通电脑上高效运行,适用于多种视觉和多模态任务。
MyVLM使得大规模视觉语言模型(VLM)能够学习和推理用户个性化的信息,定制模型以反映用户的个人经历和关系。
Densely Captioned Images (DCI) 数据集旨在为图像提供详细的描述,以捕捉视觉细节,适用于计算机视觉领域的多种任务。
阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型,结合了图像和文本输入,能够生成准确的文本和边界框输出,增强了图像描述、问答、定位和文本-图像理解等任务的能力。
Meta-Transformer是一个用于多模态学习的统一框架,能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知,并且可以在没有配对的多模态训练数据的情况下进行训练,同时可学习的数据预处理器能够处理每个输入模态,生成共享的嵌入表示。
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
LLaVA是一个轻量级的多模态大模型推理框架,结合了视觉和语言理解能力,基于LLaMA架构和视觉Transformer,支持图像+文本的高效处理。它能够理解和分析图像内容,适用于视觉问答、图片理解、AI助理等多种任务。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
Mini-LLaVA是一款轻量级的多模态大语言模型,能够处理图像、文本和视频输入,实现高效且灵活的多模态数据处理。其设计旨在简化多模态应用的开发,提供了简约的实现和灵活的接口,方便用户进行快速开发和实验。
CLIP Interrogator是一个利用CLIP模型分析图像并生成描述性文本或标签的工具。该工具能够帮助用户快速了解图像内容,适用于多种图像处理和分析场景。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。