AI交流(进群备注:Paperless-ngx)

一个开源的文档管理系统,可以将你的物理文档转换成可搜索的在线档案,从而减少纸张的使用。
Paperless-ngx的特点:
1. 组织和索引文档:使用标签、通信者、类型等对文档进行分类和索引。
2. 执行OCR:对文档执行光学字符识别(OCR),即使是只有图像的文档也能添加可搜索和可选择的文本。
3. 支持多种语言:利用开源的Tesseract引擎识别超过100种语言。
4. 文档保存格式:文档以PDF/A格式保存,设计用于长期存储,同时保留未经修改的原始文件。
5. 机器学习自动标记:使用机器学习自动为文档添加标签、通信者和文档类型。
6. 支持多种文件类型:支持PDF文档、图像、纯文本文件、Office文档等。
7. 直观的Web应用:提供定制化仪表板、过滤器、批量编辑、拖放上传等功能。
8. 支持全文搜索:提供自动完成、相关性排序、高亮显示匹配查询的文档部分等搜索功能。
Paperless-ngx的功能:
1. 将纸质文档扫描并上传,自动转换为可搜索的数字文档。
2. 使用标签和元数据对文档进行分类和索引,以便于查找。
3. 通过OCR功能提取文档中的文本,支持多种语言。
4. 在Web应用中创建自定义仪表板以便于管理文档。
5. 使用机器学习为文档自动添加标签和类型。
6. 保存文档为PDF/A格式,确保长期存储的安全性和完整性。
7. 利用全文搜索功能快速找到需要的文档。
相关导航

LLaVA-NeXT 是一个先进的多模态模型,基于 LLaVA-1.5 进行改进,于 2023 年 10 月发布基础版本,并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力,特别是在视觉推理、OCR(光学字符识别)和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率(最高达 672x672、336x1344、1344x336)以及改进视觉指令调整数据集,显著增强了模型性能。它还支持更大的语言模型,如 Mistral-7B 和 Nous-Hermes-2-Yi-34B,进一步提升了其能力。LLaVA-NeXT 的训练成本低,仅需约 32 个 GPU 运行一天,使用不到 100 万视觉指令调整样本,总训练数据为 131.8 万样本,计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手,成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎,代码、数据和模型均可公开访问,得到了 A16Z 开源 AI 资助计划的支持。

PolyMind是一个多模态、函数调用驱动的LLM Web界面,专为与Mixtral 8x7B + TabbyAPI集成而设计,提供了广泛的功能。它支持使用DuckDuckGo进行互联网搜索和网页抓取,使用comfyui生成图像,通过sharegpt4v进行图像输入(通过llama.cpp的服务器),具备OCR和Yolo功能,支持使用nmap进行端口扫描,集成了Wolfram Alpha和Python解释器,并提供了用于PDF和杂文文本文件的语义搜索的RAG。90%的网页部分(HTML、JS、CSS和Flask)完全由Mixtral编写。