olmOCR是一款开源的高性能OCR模型,专门用于将PDF和文档图像转换为清晰、结构化的纯文本。它基于微调后的7B视觉语言模型,支持处理复杂布局、表格、方程式以及手写文档,输出为Markdown格式。olmOCR完全开源,包括模型权重、数据和训练代码、推理代码,支持在4090显卡上本地运行。处理100万页PDF的成本约为190美元,性能优于Marker、MinerU以及GOT-OCR 2.0等工具。