所有AI工具AI图像工具AI开发框架

Pixtral-12B-2409模型 – 多模态图像文本处理模型

Pixtral-12B-2409 是 Mistral AI 开发的多模态模型,拥有12亿参数的解码器和4亿参数的视觉编码器,能够同时处理文本和图像。它支持128k长上下文,具备图像理解能力如OCR和视觉问答...

标签:

Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26

AI交流(进群备注:)

Pixtral-12B-2409 是 Mistral AI 开发的多模态模型,拥有12亿参数的解码器和4亿参数的视觉编码器,能够同时处理文本和图像。它支持128k长上下文,具备图像理解能力如OCR和视觉问答,支持中/英/日/韩等24种语言,满足全球化需求。该模型在多模态任务中表现优异,尤其在文档问答(DocVQA)和视觉问答(VQAv2)上领先,且可以在单张RTX 4090上运行,许可证为Apache 2.0。

Pixtral-12B-2409的特点:

  • 1. 支持多模态图像和文本处理
  • 2. 128k长上下文窗口
  • 3. 支持OCR和视觉问答
  • 4. 支持24种语言,包括中文、英语、日语和韩语
  • 5. 可在单张RTX 4090上运行
  • 6. 许可证为Apache 2.0
  • 7. 支持变量图像尺寸
  • 8. 多图像处理能力
  • 9. 自然场景理解和图表分析
  • 10. 在多模态基准测试中表现优异

Pixtral-12B-2409的功能:

  • 1. 文档问答(DocVQA)
  • 2. 视觉问答(VQAv2)
  • 3. 图表和图形理解
  • 4. 多模态推理任务
  • 5. 从图像生成HTML代码
  • 6. 自然场景分析
  • 7. 多语言文本生成和理解
  • 8. 图像和文本结合的应用开发

相关导航

暂无评论

暂无评论...