AI交流(进群备注:PaliGemma 2 Release)

PaliGemma 2 Release 是由 Google 提供的多模态视觉语言模型集合,包含 3B、10B 和 28B 不同参数规模的模型。该项目基于 Gemma 2 语言模型和 SigLIP 视觉编码器,支持多种分辨率的图像输入,适用于图像描述、视觉问答(VQA)、光学字符识别(OCR)、表格结构识别和医学图像理解等任务。模型通过 Transformers 库进行微调,适合在广泛的视觉语言任务上实现领先性能。
PaliGemma 2 Release的特点:
- 1. 提供多种模型规模:3B、10B、28B 参数
- 2. 支持不同图像分辨率:224×224、448×448、896×896
- 3. 基于开源组件 SigLIP 视觉模型和 Gemma 2 语言模型
- 4. 适合在各种视觉语言任务上进行微调,灵活性高
PaliGemma 2 Release的功能:
- 1. 图像描述:生成详细的图像字幕,描述动作、情感和场景叙述
- 2. 视觉问答(VQA):回答与图像相关的问题
- 3. 光学字符识别(OCR):识别图像中的文本
- 4. 表格结构识别:通过微调实现表格内容的理解
- 5. 医学图像理解:如胸部 X 光报告生成,化学公式识别和空间推理
相关导航

LLaVA-NeXT 是一个先进的多模态模型,基于 LLaVA-1.5 进行改进,于 2023 年 10 月发布基础版本,并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力,特别是在视觉推理、OCR(光学字符识别)和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率(最高达 672x672、336x1344、1344x336)以及改进视觉指令调整数据集,显著增强了模型性能。它还支持更大的语言模型,如 Mistral-7B 和 Nous-Hermes-2-Yi-34B,进一步提升了其能力。LLaVA-NeXT 的训练成本低,仅需约 32 个 GPU 运行一天,使用不到 100 万视觉指令调整样本,总训练数据为 131.8 万样本,计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手,成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎,代码、数据和模型均可公开访问,得到了 A16Z 开源 AI 资助计划的支持。