LLM-Aided OCR开源项目 – 提升OCR扫描PDF的文本质量

LLM-Aided OCR 是一个基于大型语言模型（LLM）的开源工具，旨在通过结合光学字符识别（OCR）和LLM的纠错功能，将扫描的PDF文件转换为高准确度、格式正确且易于阅读的Markdown文档。该工具支持多种大语言模型的集成，包括本地LLM和云端API，适用于需要将扫描文档高质量数字化的场景。

LLM-Aided OCR的特点:

1. 将PDF文件转化为图像进行OCR扫描
2. 利用本地LLM或API纠正OCR错误
3. 输出高准确度、高质量的Markdown文本
4. 支持多种大语言模型的集成
5. 开源工具，易于使用和修改
6. 提升Tesseract OCR输出的准确性
7. 将原始OCR文本格式化为易读的文档
8. 适用于各种扫描文档
9. 结合大型语言模型进行智能纠错
10. 支持本地和云端的LLM异步处理
11. 提供详细的日志记录和质量评估功能

LLM-Aided OCR的功能:

1. 将PDF文件上传到工具进行处理
2. 选择使用本地LLM或指定的API
3. 执行OCR处理并获取Markdown输出
4. 检查和修改生成的Markdown文档
5. 将Markdown文档导出到所需格式
6. 自动扫描纸质文件并生成Markdown格式文本
7. 处理扫描的PDF文件，提高OCR文本的准确性
8. 通过LLM的纠错功能，优化OCR输出的文本质量
9. 使用本地或云端的LLM进行异步处理，提升性能
10. 生成详细的日志记录和质量评估报告，便于调试和跟踪

相关导航

imgProof官网 – AI图像文本校对工具

imgProof是一个基于AI的工具，能够分析图像文件中的文本，识别拼写和语法错误，提供修正建议。

Showllable开源项目 – 简化机器学习模型展示与分享

Showllable 是一个开源项目，旨在提供一个简化的方式来展示和分享机器学习模型。它支持多种模型格式，提供用户友好的界面，允许实时预览和分享功能，集成常用的可视化工具，并支持跨平台使用。

EAGLE开源项目 – 加速大语言模型解码的基准

EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) 是一个用于加速大语言模型（LLM）解码的新基准，通过外推第二顶层上下文特征向量显著提升生成效率。EAGLE包含三个版本：EAGLE-1、EAGLE-2和EAGLE-3，分别在不同程度上优化速度和效率。EAGLE-1通过外推特征向量实现2-3倍的加速，EAGLE-2通过动态调整草稿树结构进一步提升性能，EAGLE-3通过融合低、中、高层语义特征进一步加速生成。项目支持与其他并行技术（如vLLM、DeepSpeed、Mamba等）结合使用，并已在多个主流LLM服务框架中集成。

Apollo开源项目 – 多语言医学自然语言处理项目

Apollo是一个多语言医学模型、数据集、基准和代码的开源项目，旨在为英语、中文、法语、印地语、西班牙语和阿拉伯语提供医学领域的自然语言处理能力。

Spug开源项目 – 轻量级无Agent自动化运维平台

Spug是一款面向中小型企业设计的轻量级无Agent自动化运维平台，整合了主机管理、主机批量执行、主机在线终端、应用发布部署、在线任务计划、配置中心、监控、报警等一系列功能。它提供了全面的运维解决方案，支持通过Docker镜像快速安装，适合简化日常运维工作流程，提高工作效率。

livestory开源项目 – 实时语音绘图工具

利用 AI 进行实时语音绘图的工具，通过语音输入生成图像，支持语音控制绘图。

ReSwapper开源项目 – 高效换脸工具

ReSwapper旨在复现InsWapper的实现，提供了训练代码、推理功能以及预训练权重。用户可以通过该项目快速上手，进行高质量的人脸替换。

AI-Researcher开源项目 – 全流程自动化科学研究工具

AI-Researcher是香港大学数据科学实验室推出的开源自动化科学研究工具，基于大型语言模型（LLM）代理实现从研究想法到论文发表的全流程自动化。支持用户在两种模式下操作：一是提供详细的研究想法描述，系统据此生成实现策略；二是提供参考文献，系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能，支持多领域研究，基于开源的基准测试套件评估研究质量。

Awesome-Open-Vocabulary-Perception – 开放词汇感知资源集合

专注于开放词汇感知领域的综合资源集合，涵盖了开放词汇感知（包括2D和3D）相关的论文和代码资源，为研究人员提供了该领域最新研究成果的集中索引。该项目持续更新，助力研究人员快速上手，涵盖了3D和2D两大领域，资源丰富，提供了10多篇顶级会议论文及代码链接。

GPTs开源项目 – 集合优秀 GPT 提示，助力用户

一个集合了优秀 GPT 提示的项目，旨在帮助用户更好地利用 GPT 技术。该项目提供了多种高质量的提示，支持不同场景的应用，易于使用和集成，并且是开源的，欢迎贡献和讨论。

SWE-RL开源项目 – 强化学习增强软件工程推理能力

SWE-RL是Meta发布的第一个使用强化学习（RL）专门用于增强大型语言模型（LLM）处理现实世界软件工程（SE）能力的RL方法。该项目专注于垂直细分领域的RL推理大模型，具有处理GitHub上issue问题、软件代码生成和项目bug修复等能力。通过开源软件演进数据和基于规则的奖励机制，推动大型语言模型推理能力的强化学习项目。

Light Schrödinger Bridge开源项目 – ICLR 2024论文实现

Light Schrödinger Bridge 是一个与Schrödinger桥概念相关的项目，提供了ICLR 2024论文的实现代码。该项目专注于Schrödinger桥的研究，旨在通过代码实现来推动相关理论的发展。

Simon官网 – 强大的语义搜索库

Simon是一个基于Python的库，支持OCR、数据摄取、语义搜索、抽取式问答、文本推荐和AI聊天等功能。它是开源的（Apache 2.0），并且可以在Postgres实例上运行。

金鸣在线表格识别系统官网 – 在线OCR表格识别服务

金鸣在线表格识别系统是由深圳市金鸣科技有限公司提供的在线OCR服务，专为将图像中的表格转换为可编辑的Excel文件而设计。该系统利用百度文心一言大模型等先进AI技术，提供高精度的表格识别、文本识别和图像校正功能，支持批量处理和多种文档格式的转换。适用于需要快速、高效文档数字化的企业和个人用户。

Magic Clothing开源项目 – 基于LDM的服装驱动图像合成

Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统，专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本，能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件，如肖像和参考姿势图像，并且提供了不同分辨率的模型权重。

myReach官网 – 你的个人AI助手，像第二大脑一样

myReach是一个保存和组织知识的平台，配备智能AI助手，能够回答所有问题并提取、学习你保存的内容，方便日后检索。用户可以保存笔记、网站、文件、联系人和文档，确保所有重要信息安全存储在一个地方。myReach利用AI技术自动提取和组织数据，转录音频和视频文件，从图像和网站提取文本，生成摘要，并提供最佳信息互联的建议。

暂无评论

暂无评论...