PaliGemma 2 Release官网 – Google的多模态视觉语言模型集合
PaliGemma 2 Release 是由 Google 提供的多模态视觉语言模型集合,包含 3B、10B 和 28B 不同参数规模的模型。该项目基于 Gemma 2 语言模型和 SigLIP 视觉编码器,支持多种分辨率的图像输入,适用于图像描述、视觉问答(VQA)、光学字符识别(OCR)、表格结构识别和医学图像理解等任务。模型通过 Transformers 库进行微调,适合在广泛的视觉语言任务上实现领先性能。