多模态视觉模型

Grok-1.5 Vision是xAI在2024年4月发布的首代多模态视觉模型，专注于图像生成与分析。它能处理文档、图表、截图和照片等多种视觉信息，在RealWorldQA等基准测试中表现优异（空间理解得分68.7%），尤其擅长现实世界空间推理和跨学科任务。目前未向公众开放，仅限早期测试者和现有Grok用户使用。

代码生成图像生成与分析多模态视觉模型文档解析

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。