Pixel Aligned Language Models (PixelLLM)官网 – 像素级图像理解与定位模型
PixelLLM 是一个基于大型多模态模型(LMM)的研究项目,专注于像素级的图像理解和定位任务。它能够为图像中特定位置提供详细描述,并准确定位这些位置。该项目由 Google Research 和 UC San Diego 的研究人员合作开发,旨在探索大型语言模型如何从视觉输入中获得空间理解和推理能力。PixelLLM 在 RefCOCO 和 Visual Genome 数据集上达到了最先进的性能,特别是在引用定位和密集对象字幕任务中表现出色。