Paperless-ngx开源项目 – 开源文档管理系统，减少纸张使用

一个开源的文档管理系统，可以将你的物理文档转换成可搜索的在线档案，从而减少纸张的使用。
Paperless-ngx的特点:
1. 组织和索引文档：使用标签、通信者、类型等对文档进行分类和索引。
2. 执行OCR：对文档执行光学字符识别（OCR），即使是只有图像的文档也能添加可搜索和可选择的文本。
3. 支持多种语言：利用开源的Tesseract引擎识别超过100种语言。
4. 文档保存格式：文档以PDF/A格式保存，设计用于长期存储，同时保留未经修改的原始文件。
5. 机器学习自动标记：使用机器学习自动为文档添加标签、通信者和文档类型。
6. 支持多种文件类型：支持PDF文档、图像、纯文本文件、Office文档等。
7. 直观的Web应用：提供定制化仪表板、过滤器、批量编辑、拖放上传等功能。
8. 支持全文搜索：提供自动完成、相关性排序、高亮显示匹配查询的文档部分等搜索功能。

Paperless-ngx的功能:
1. 将纸质文档扫描并上传，自动转换为可搜索的数字文档。
2. 使用标签和元数据对文档进行分类和索引，以便于查找。
3. 通过OCR功能提取文档中的文本，支持多种语言。
4. 在Web应用中创建自定义仪表板以便于管理文档。
5. 使用机器学习为文档自动添加标签和类型。
6. 保存文档为PDF/A格式，确保长期存储的安全性和完整性。
7. 利用全文搜索功能快速找到需要的文档。

相关导航

Swish Scan : PDF Scanner官网 – 便捷的网页PDF扫描与OCR工具

Swish Scan是一个基于网页的PDF扫描和OCR工具，允许用户使用摄像头即时捕捉文档，并支持多语言文本提取。

iKapture官网 – 基于AI的文档处理解决方案

iKapture是一款利用人工智能和机器学习技术的文档处理解决方案，能够自动分类文档、提取发票数据，并支持自定义工作流程，以适应独特的业务流程。用户可上传文档，监控异常案例的进展和解决过程，极大提升了数据提取的效率。

Knowlery AI官网 – 智能文档理解助手

Knowlery AI 是一款强大的文档理解工具，能够处理多种格式的文档如PDF、PPT和Word，帮助用户快速提取相关段落和关键信息，并提供更广泛的解答及后续相关问题和主题，提升用户的理解能力。

ByteBookMan官网 – 与PDF互动的AI工具

ByteBookMan是一个基于AI的互动平台，允许用户使用GPT-3.5技术与PDF文件进行对话。用户可以高亮、注释和分享PDF，同时在其中搜索关键词和短语。

formx ai官网 – 将纸质文档转换为数字化结构化数据的AI服务

FormX.ai 是一项利用人工智能技术将物理文档转化为数字化结构化数据的服务。它提供了一种数据提取工具，能够从物理文档中提取信息并转化为结构化的数字数据。用户可以通过注册免费账户登录其网页门户，访问各种功能并管理解析配置。用户只需上传纸质文档，FormX.ai 将利用AI算法提取相关数据。提取的数据可返回为JSON格式，便于集成到任何软件中。此外，FormX.ai 还提供了针对一般购物收据、身份证和官方许可证的预配置数据提取模型，使得整个过程变得更加轻松。

Mem.ai官网 – 智能化团队工作管理平台

Mem.ai 是一个利用人工智能组织团队工作，提高信息可搜索性和可发现性的生产力平台。用户可以通过注册账户并邀请团队成员，开始在平台上组织和存储会议记录、项目和知识库。Mem.ai 使用 AI 技术使一切信息瞬间可搜索，帮助用户快速找到所需信息。

Aginsi AI官网 – 智能总结与研究工具

Aginsi是一个AI驱动的总结和研究工具，帮助研究人员轻松总结、处理和组织研究工作。作为一个全功能的研究助手，Aginsi提供了无缝且高效的研究工作流程。用户只需注册并安装工具栏，即可通过提问或输入关键词开始研究，Aginsi将为您总结和处理相关信息，支持文档管理和AI标签整理，且可与MS Office等编辑器集成。

Parseur官网 – 高效的AI数据提取工具

Parseur是一款利用AI技术自动化从文档中提取数据的软件，支持电子邮件、PDF、电子表格等多种非结构化数据源，旨在将繁杂的文档信息转化为结构化、可操作的数据，极大降低人工数据输入的工作量。

Applicate官网 – 最佳照片组织应用

Applicate是一款iPhone应用，旨在帮助用户以有意义的方式个性化和组织他们的照片和截图。用户可以通过机器学习标签功能自动分类图像，并创建个性化的智能文件夹来存储和轻松找到灵感。

autobotAI官网 – 云安全操作的AI驱动自动化平台

autobotAI是一个机器人流程自动化平台，旨在帮助云和安全团队自动化日常操作任务。它提供了一个基于拖拽的开发界面来创建机器人，并提供数据收集、逻辑算法、审批、自定义仪表盘和RPA即服务等功能。该平台通过AI驱动的超自动化，简化了云管理和安全操作，提高了效率，减少了手动任务。

Paperless-ngx开源项目 – 强大的在线文档管理系统

一款功能强大的文档管理系统，能够将纸质文档转换成在线可搜索的文档，并进行分类和索引，方便随时搜索查阅。

docling-api开源项目 – 高效文档转换后端

docling-api是一个高效、可扩展的文档转换后端服务器，能够轻松将多种文档格式（如PDF、DOCX、PPTX、HTML、图片等）转换为Markdown格式。它支持CPU和GPU处理，尤其在GPU模式下性能显著提升。该API提供同步和异步接口，满足不同场景需求，并支持多语言OCR，覆盖法语、德语、西班牙语等多种语言。此外，它还支持文本和表格提取，以及批量处理功能。

Simon官网 – 强大的语义搜索库

Simon是一个基于Python的库，支持OCR、数据摄取、语义搜索、抽取式问答、文本推荐和AI聊天等功能。它是开源的（Apache 2.0），并且可以在Postgres实例上运行。

PolyMind开源项目 – 多模态LLM驱动的Web界面

PolyMind是一个多模态、函数调用驱动的LLM Web界面，专为与Mixtral 8x7B + TabbyAPI集成而设计，提供了广泛的功能。它支持使用DuckDuckGo进行互联网搜索和网页抓取，使用comfyui生成图像，通过sharegpt4v进行图像输入（通过llama.cpp的服务器），具备OCR和Yolo功能，支持使用nmap进行端口扫描，集成了Wolfram Alpha和Python解释器，并提供了用于PDF和杂文文本文件的语义搜索的RAG。90%的网页部分（HTML、JS、CSS和Flask）完全由Mixtral编写。

DTLR开源项目 – 基于DINO-DETR的文本行识别方法

DTLR是一种基于DINO-DETR架构的通用文本行识别方法，支持印刷体（OCR）和手写体（HTR），以及拉丁、中文或密码字符的识别。它通过CNN骨干网络提取多尺度图像特征，并通过变换器编码器层进一步细化这些特征。解码器由一组查询组成，每个查询都与图像特征进行交互，以预测字符的边界框和类别概率。DTLR克服了以往基于检测的方法在HTR中的挑战，包括字符级标注的困难和成本高昂。它通过合成数据预训练、采用transformer检测器以及线级标注微调等技术，提升了手写体识别的效果。

flatnotes开源项目 – 极简自托管笔记应用

flatnotes 是一款极简的自托管笔记应用，使用纯 Markdown 文件存储，无需数据库，专注于内容创作，确保笔记永不被'绑架'。它提供了移动响应式网页界面，支持浅色/深色主题，原始/所见即所得 Markdown 编辑模式，强大的全文搜索和标签功能，Wiki 链接支持，多种认证选项，以及 RESTful API 接口。

DeepSeek-VL2开源项目 – 多模态视觉语言模型

DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型，旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展，特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。

captcha-break开源项目 – 基于图像处理和OCR的验证码破解工具

captcha-break是一个基于opencv2、tesseract-ocr和机器学习算法的验证码破解工具。它通过图像处理和光学字符识别技术，结合机器学习算法提高准确性，旨在破解各种类型的验证码挑战。该项目是开源的，并在GitHub上提供，鼓励社区贡献。

Vary-toy官网 – 小型视觉语言模型

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型，参数量为1.8B，能够在消费级显卡（如1080Ti）上训练和运行。它支持多种视觉语言任务，包括处理图片中的文字、图表、公式，以及对象检测、图像描述、视觉问答等，同时支持中英文。通过改进的视觉词汇表增强视觉感知能力，Vary-toy在多个数据集上的表现与7B级模型相当甚至更好，且计算开销更低。

PaliGemma 2官网 – Google发布的增强视觉模型

PaliGemma 2是Google发布的新一代视觉模型，主要在OCR、图像分割和问题回答等方面进行了显著增强。该模型能够更准确地识别图像中的文字，更精细地分割图像中的对象，并更智能地回答与图像内容相关的问题。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

ezML官网 – 快速集成计算机视觉功能

ezML是一个基于云的平台，旨在帮助开发者快速集成计算机视觉功能，无需训练数据和机器学习代码，只需三步即可完成。通过构建管道、配置层和轻松集成到应用程序中，用户可以在短短30秒内实现自定义的计算机视觉功能。

Inquir官网 – 强大的搜索即服务平台

Inquir 是一个搜索即服务平台，提供强大的搜索功能，包括实时索引、全文搜索和增强检索生成（RAG），可以通过开发者友好的API轻松集成。该平台使企业能够创建定制的搜索引擎、聊天机器人和针对其数据需求的高级分析。

Infinity开源项目 – AI原生数据库，提供快速搜索能力

Infinity是一个AI原生数据库，专为LLM应用设计，具备极快的向量和全文搜索能力，具有高性能、灵活性和易用性，能够满足下一代AI应用的各种挑战。

Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

暂无评论

暂无评论...