LLM-Aided OCR 是一个基于大型语言模型(LLM)的开源工具,旨在通过结合光学字符识别(OCR)和LLM的纠错功能,将扫描的PDF文件转换为高准确度、格式正确且易于阅读的Markdown文档。该工具支持多种大语言模型的集成,包括本地LLM和云端API,适用于需要将扫描文档高质量数字化的场景。
基于Rust语言实现的多语言文档OCR工具包,结合修改版Segformer、OpenCV和donut transformer,提供高效的文档识别与处理功能。
RAGLite是一个轻量级的Python RAG工具包,支持PostgreSQL和SQLite作为向量数据库,旨在提供高效的信息检索和生成解决方案。
gptpdf是一个利用GPT技术来解析和分析PDF文件的工具,能够将PDF内容转换为Markdown格式,支持复杂排版、数学公式、表格、图片和图表的完美解析。
imgProof是一个基于AI的工具,能够分析图像文件中的文本,识别拼写和语法错误,提供修正建议。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型