AI交流(进群备注:LLM-Aided OCR)

LLM-Aided OCR 是一个基于大型语言模型(LLM)的开源工具,旨在通过结合光学字符识别(OCR)和LLM的纠错功能,将扫描的PDF文件转换为高准确度、格式正确且易于阅读的Markdown文档。该工具支持多种大语言模型的集成,包括本地LLM和云端API,适用于需要将扫描文档高质量数字化的场景。
LLM-Aided OCR的特点:
- 1. 将PDF文件转化为图像进行OCR扫描
- 2. 利用本地LLM或API纠正OCR错误
- 3. 输出高准确度、高质量的Markdown文本
- 4. 支持多种大语言模型的集成
- 5. 开源工具,易于使用和修改
- 6. 提升Tesseract OCR输出的准确性
- 7. 将原始OCR文本格式化为易读的文档
- 8. 适用于各种扫描文档
- 9. 结合大型语言模型进行智能纠错
- 10. 支持本地和云端的LLM异步处理
- 11. 提供详细的日志记录和质量评估功能
LLM-Aided OCR的功能:
- 1. 将PDF文件上传到工具进行处理
- 2. 选择使用本地LLM或指定的API
- 3. 执行OCR处理并获取Markdown输出
- 4. 检查和修改生成的Markdown文档
- 5. 将Markdown文档导出到所需格式
- 6. 自动扫描纸质文件并生成Markdown格式文本
- 7. 处理扫描的PDF文件,提高OCR文本的准确性
- 8. 通过LLM的纠错功能,优化OCR输出的文本质量
- 9. 使用本地或云端的LLM进行异步处理,提升性能
- 10. 生成详细的日志记录和质量评估报告,便于调试和跟踪
相关导航

EAGLE开源项目 – 加速大语言模型解码的基准
EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) 是一个用于加速大语言模型(LLM)解码的新基准,通过外推第二顶层上下文特征向量显著提升生成效率。EAGLE包含三个版本:EAGLE-1、EAGLE-2和EAGLE-3,分别在不同程度上优化速度和效率。EAGLE-1通过外推特征向量实现2-3倍的加速,EAGLE-2通过动态调整草稿树结构进一步提升性能,EAGLE-3通过融合低、中、高层语义特征进一步加速生成。项目支持与其他并行技术(如vLLM、DeepSpeed、Mamba等)结合使用,并已在多个主流LLM服务框架中集成。
暂无评论...