olmOCR官网 – 高效提取PDF结构化内容
olmOCR 是一个端到端的 PDF 文档解析工具,结合视觉语言模型(VLM)和文档锚定技术,能够高效提取 PDF 文档中的结构化内容,如章节、表格、列表和公式。它通过在大规模数据集上微调一个 7B 参数的 VLM 模型,显著提高了内容提取的准确性和处理效率。推理管道基于 SGLang 和 vLLM 框架,能够高效处理大规模数据,并通过优化硬件利用和推理效率降低成本。该项目特别针对 PDF 文档的多样性格式和视觉布局设计,能够保持自然阅读顺序,同时处理图形、手写文本和低质量扫描件。