学术论文优化

olmOCR是一款开源的高性能OCR模型，专门用于将PDF和文档图像转换为清晰、结构化的纯文本。它基于微调后的7B视觉语言模型，支持处理复杂布局、表格、方程式以及手写文档，输出为Markdown格式。olmOCR完全开源，包括模型权重、数据和训练代码、推理代码，支持在4090显卡上本地运行。处理100万页PDF的成本约为190美元，性能优于Marker、MinerU以及GOT-OCR 2.0等工具。

PDF文档处理学术论文优化开源OCR项目手写内容识别

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。