olmOCR-mix-0225官网 – OCR模型训练数据集
olmOCR-mix-0225 是一个专为 OCR(光學字符識別)和文檔理解模型訓練設計的數據集,包含約 250,000 頁 PDF 文件,這些文件通過 gpt-4o-2024-08-06 轉換為純文本,保留了原始數字內容。數據集來源包括網絡爬取的 PDF 和互聯網檔案館的書籍,涵蓋多種類型文檔,如學術論文、宣傳冊和法律文件等,適用於訓練、微調或評估 OCR 文檔處理系統。數據集由 105,504 個唯一文檔和 266,135 頁組成,並提供了詳細的元數據和提取內容,支持多種 OCR 和文檔理解任務。