Qwen2-VL 是一款由 Qwen 团队(Alibaba Cloud 开发)推出的视觉语言多模态大模型,特别适用于处理复杂布局的 PDF 文档,通过结合视觉和语言模式提取内容,支持表格、标题等的识别和转换。该模型在多个基准测试中表现出色,尤其在文档理解方面,72B 版本甚至超过 GPT-4o 和 Claude 3.5-Sonnet。