Pixtral-12B-2409 是 Mistral AI 开发的多模态模型,拥有12亿参数的解码器和4亿参数的视觉编码器,能够同时处理文本和图像。它支持128k长上下文,具备图像理解能力如OCR和视觉问答,支持中/英/日/韩等24种语言,满足全球化需求。该模型在多模态任务中表现优异,尤其在文档问答(DocVQA)和视觉问答(VQAv2)上领先,且可以在单张RTX 4090上运行,许可证为Apache 2.0。