AI交流(进群备注:olmOCR-mix-0225)

olmOCR-mix-0225 是一个专为 OCR(光學字符識別)和文檔理解模型訓練設計的數據集,包含約 250,000 頁 PDF 文件,這些文件通過 gpt-4o-2024-08-06 轉換為純文本,保留了原始數字內容。數據集來源包括網絡爬取的 PDF 和互聯網檔案館的書籍,涵蓋多種類型文檔,如學術論文、宣傳冊和法律文件等,適用於訓練、微調或評估 OCR 文檔處理系統。數據集由 105,504 個唯一文檔和 266,135 頁組成,並提供了詳細的元數據和提取內容,支持多種 OCR 和文檔理解任務。
olmOCR-mix-0225的特点:
- 1. 包含約 250,000 頁 PDF 文件,轉換為純文本
- 2. 數據集來源多樣,包括網絡爬取的 PDF 和互聯網檔案館書籍
- 3. 提供詳細的元數據,如 URL、頁碼、ID 和 JSON 響應
- 4. 支持多種文檔類型,如學術論文、宣傳冊、法律文件等
- 5. 每個頁面作為單獨的 PDF 文件存儲,便於訪問
- 6. 優化大規模批量處理,成本效益高
olmOCR-mix-0225的功能:
- 1. 用於訓練和微調 OCR 模型
- 2. 支持文檔理解和視覺語言模型(VLM)的訓練
- 3. 適用於學術研究和教育項目
- 4. 用於法律文件處理和學術論文分析
- 5. 支持文檔數字化和內容提取
相关导航

LLaMA-VID开源项目 – 处理长时间视频的多模态大模型
LLaMA-VID 是一种开源的多模态大模型,专门设计用于处理长时间的视频内容,如电影。它通过使用视觉语言模型(Vision Language Models, VLMs)来结合计算机视觉和自然语言处理,从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记(Token)来表示每一帧图像或视频:一个上下文标记(Context Token)用于编码整个图像或视频中最相关或最重要的部分,另一个内容标记(Content Token)用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息,并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频,并在多个视频榜单上实现了 SOTA(State of the Art)表现。
暂无评论...