所有AI工具AI图像工具AI学习网站

olmOCR-mix-0225官网 – OCR模型训练数据集

olmOCR-mix-0225 是一个专为 OCR(光學字符識別)和文檔理解模型訓練設計的數據集,包含約 250,000 頁 PDF 文件,這些文件通過 gpt-4o-2024-08-06 轉換為純文本,保留了原始數字內...

标签:

AI交流(进群备注:olmOCR-mix-0225)

olmOCR-mix-0225 是一个专为 OCR(光學字符識別)和文檔理解模型訓練設計的數據集,包含約 250,000 頁 PDF 文件,這些文件通過 gpt-4o-2024-08-06 轉換為純文本,保留了原始數字內容。數據集來源包括網絡爬取的 PDF 和互聯網檔案館的書籍,涵蓋多種類型文檔,如學術論文、宣傳冊和法律文件等,適用於訓練、微調或評估 OCR 文檔處理系統。數據集由 105,504 個唯一文檔和 266,135 頁組成,並提供了詳細的元數據和提取內容,支持多種 OCR 和文檔理解任務。

olmOCR-mix-0225的特点:

  • 1. 包含約 250,000 頁 PDF 文件,轉換為純文本
  • 2. 數據集來源多樣,包括網絡爬取的 PDF 和互聯網檔案館書籍
  • 3. 提供詳細的元數據,如 URL、頁碼、ID 和 JSON 響應
  • 4. 支持多種文檔類型,如學術論文、宣傳冊、法律文件等
  • 5. 每個頁面作為單獨的 PDF 文件存儲,便於訪問
  • 6. 優化大規模批量處理,成本效益高

olmOCR-mix-0225的功能:

  • 1. 用於訓練和微調 OCR 模型
  • 2. 支持文檔理解和視覺語言模型(VLM)的訓練
  • 3. 適用於學術研究和教育項目
  • 4. 用於法律文件處理和學術論文分析
  • 5. 支持文檔數字化和內容提取

相关导航

暂无评论

暂无评论...