Llama OCR 是一个基于 Llama 3.2 Vision 模型的 npm 库,用于免费执行 OCR(光学字符识别)。它能够将图像或 PDF 文档转换为 Markdown 格式,简化了文字提取和格式化的过程。该工具由 Together AI 的 Llama 3.2 Vision 模型驱动,支持多种文档内容的高精度识别,并且可以通过 npm 包轻松集成到开发项目中。
RAGLite是一个轻量级的Python RAG工具包,支持PostgreSQL和SQLite作为向量数据库,旨在提供高效的信息检索和生成解决方案。
LLM-Aided OCR 是一个基于大型语言模型(LLM)的开源工具,旨在通过结合光学字符识别(OCR)和LLM的纠错功能,将扫描的PDF文件转换为高准确度、格式正确且易于阅读的Markdown文档。该工具支持多种大语言模型的集成,包括本地LLM和云端API,适用于需要将扫描文档高质量数字化的场景。
基于Rust语言实现的多语言文档OCR工具包,结合修改版Segformer、OpenCV和donut transformer,提供高效的文档识别与处理功能。
gptpdf是一个利用GPT技术来解析和分析PDF文件的工具,能够将PDF内容转换为Markdown格式,支持复杂排版、数学公式、表格、图片和图表的完美解析。
imgProof是一个基于AI的工具,能够分析图像文件中的文本,识别拼写和语法错误,提供修正建议。