MobileVLM开源项目 – 移动设备上的多模态视觉语言模型

MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型，专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型，通过轻量级下采样投影器（LDP）实现语言和视觉的交互与融合。MobileVLM在多个视觉语言任务上表现优异，推理速度快，适合在移动设备上运行。

MobileVLM的特点:

1. 支持多模态视觉语言任务
2. 基于Transformer的语言模型MobileLLaMA
3. 轻量级下采样投影器（LDP）实现跨模态交互
4. 在多个标准视觉语言基准测试中表现优异
5. 支持在移动设备上高效推理

MobileVLM的功能:

1. 图像与文本的交互问答
2. 图像描述生成
3. 视觉问答（VQA）
4. 文本生成与摘要
5. 移动设备上的实时多模态任务处理

相关导航

OpenNMT-py开源项目 – 高效机器翻译开源框架

OpenNMT-py是一个专注于机器翻译的开源框架，为自然语言处理领域提供可靠支持。它以高效的神经网络训练为基础，广泛应用于学术研究和企业开发，帮助用户构建精准的翻译系统。

BLIP开源项目 – 强大的图像-文本理解模型

BLIP (Bootstrapped Language-Image Pretraining) 是一款强大的图像-文本理解模型，能够根据图片内容自动生成高质量的描述文本。它结合视觉和语言模型，支持图像理解、文本生成、跨模态检索等功能，适用于图片字幕生成、视觉问答、智能搜索等场景。

Florence-VL开源项目 – 微软开源的多模态图像理解模型

Florence-VL是微软开源的多模态模型，具备强大的图像理解能力，能够从不同角度深入理解图片内容并给出准确回复。其核心在于升级的视觉编码器和深度-广度融合(DBFusion)机制，支持多层次、多方面的视觉特征捕获和融合，超越了传统的CLIP式视觉Transformer模型。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

MiniCPM开源项目 – 高效端侧大模型

MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型，主体语言模型 MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。通过 Int4 量化技术，MiniCPM 实现了在手机端的部署能力，提供与人类说话速度相当的流式输出速度。MiniCPM 在中文、数学和编程能力方面表现优异，超越了 Llama2-13B、MPT-30B 和 Falcon-40B 等模型。此外，基于 MiniCPM-2B 开发的多模态模型 MiniCPM-V 在同规模模型中表现最佳，支持高效参数微调和全参数微调，二次开发成本较低。

WorldRWKV开源项目 – 多模态理解与推理模型

WorldRWKV是一个基于纯RWKV7架构的模型，旨在实现任意模态的训练和推理，使模型能够轻松理解多种输入形式。它支持多种模态的输入（如视觉、语音）并输出文本，提供端到端的跨模态推理能力，性能卓越，例如在视觉问答任务中准确率高达78.30%。

Oscar开源项目 – 图像与文本语义对齐的AI模型

Oscar（Object-Semantics Aligned Pretraining）是一款能够根据图像内容生成精准文本描述的AI模型。它通过学习图像和文本之间的语义关系，能够理解图片中的对象、场景以及它们之间的关系，从而生成详细且符合语境的文字描述。Oscar不仅能进行图像描述，还可以用于视觉问答和跨模态检索，是跨领域图像与文本理解的有力工具。

Janus-Pro-7B官网 – 高分辨率视觉多模态模型

Janus-Pro-7B是DeepSeek发布的一款视觉多模态模型，支持384x384分辨率的图像输入，并具备强大的图像生成功能。该模型结合了视觉和语言处理的多模态能力，能够在普通电脑上高效运行，适用于多种视觉和多模态任务。

MyVLM开源项目 – 个性化视觉语言模型

MyVLM使得大规模视觉语言模型（VLM）能够学习和推理用户个性化的信息，定制模型以反映用户的个人经历和关系。

ComfyUI-Janus-Pro开源 – ComfyUI 的多模态图像理解扩展

ComfyUI-Janus-Pro 是一组为 ComfyUI 设计的自定义节点，集成了由 DeepSeek AI 开发的 Janus-Pro 框架，这是一个统一的多模态理解和生成模型。它为 ComfyUI 带来了强大的多模态理解能力，使 AI 创作过程更加智能和高效。主要功能包括图像理解、生成描述和光学字符识别（OCR），支持 Janus-Pro-1B 和 Janus-Pro-7B 模型，适用于多种图像处理任务。

LLaVA开源项目 – 轻量级多模态GPT-4助手

LLaVA是一个轻量级的多模态大模型推理框架，结合了视觉和语言理解能力，基于LLaMA架构和视觉Transformer，支持图像+文本的高效处理。它能够理解和分析图像内容，适用于视觉问答、图片理解、AI助理等多种任务。

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

一个专注于挖掘多模态视觉语言模型潜力的开源项目，支持从2B到34B不同规模的密集和MoE大型语言模型，具备图像理解、推理和生成的能力。

PaliGemma 2 Release官网 – Google的多模态视觉语言模型集合

PaliGemma 2 Release 是由 Google 提供的多模态视觉语言模型集合，包含 3B、10B 和 28B 不同参数规模的模型。该项目基于 Gemma 2 语言模型和 SigLIP 视觉编码器，支持多种分辨率的图像输入，适用于图像描述、视觉问答（VQA）、光学字符识别（OCR）、表格结构识别和医学图像理解等任务。模型通过 Transformers 库进行微调，适合在广泛的视觉语言任务上实现领先性能。

Meta-Transformer开源项目 – 统一处理多模态数据的框架

Meta-Transformer是一个用于多模态学习的统一框架，能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知，并且可以在没有配对的多模态训练数据的情况下进行训练，同时可学习的数据预处理器能够处理每个输入模态，生成共享的嵌入表示。

CogVLM开源项目 – 多模态视觉语言AI模型

CogVLM是一款结合视觉和语言的大型AI模型，专为多模态任务设计，能够分析图片内容并生成精准的文本描述、回答问题，甚至进行复杂的推理。它在多模态理解上表现优异，支持OCR识别、场景分析、细节描述等功能。CogVLM通过高效整合图像和文本处理能力，为开发者提供构建复杂AI系统的可靠工具，适用于智能问答、图片内容创作、智能搜索等多种应用场景。

暂无评论

暂无评论...