Phi-3.5-vision是由微软开发的开源多模态模型,专注于文本和视觉数据处理。它基于合成数据和精选公开数据构建,支持128K上下文长度,通过监督微调和直接偏好优化提升指令遵循和安全性。该模型参数量为42亿,包含图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练数据达5000亿令牌,适用于内存/计算受限环境。
诚华OCR是一款专业的在线OCR工具,支持多种文件格式转换,无需注册登录,每天免费转换10页,文件大小不超过10MB。该工具利用OCR技术将扫描的纸质文档、PDF文件或数码相机拍摄的图片转换为可编辑的文档,如Microsoft Word、Excel、PowerPoint等。
Llama OCR 是一个基于 Llama 3.2 Vision 模型的 npm 库,用于免费执行 OCR(光学字符识别)。它能够将图像或 PDF 文档转换为 Markdown 格式,简化了文字提取和格式化的过程。该工具由 Together AI 的 Llama 3.2 Vision 模型驱动,支持多种文档内容的高精度识别,并且可以通过 npm 包轻松集成到开发项目中。
pytesseract是一个Python库,封装了Google的Tesseract OCR引擎,使开发者能够在Python中轻松实现光学字符识别(OCR)功能。它支持多种图像格式,允许配置Tesseract参数以定制OCR过程,并可以批量处理多张图像。此外,pytesseract与Python的PIL/Pillow等图像处理库无缝集成,便于在OCR前对图像进行预处理。
PDFtoPDF是一个先进的OCR工具,专为深度学习和内容分析而设计。它能够准确识别和转换扫描书籍中的文本,精确恢复原始格式,如标题和高亮部分。
TurboLens是一款全功能OCR工具,能够从图像和文本中生成洞察,支持手写文本、表格和翻译,凭借AI驱动的准确性和速度,简化工作流程。
一款开箱即用的翻译和 OCR 工具,支持多种翻译方式和多家翻译服务。
Swish Scan是一个基于网页的PDF扫描和OCR工具,允许用户使用摄像头即时捕捉文档,并支持多语言文本提取。
一个开源的文档管理系统,可以将你的物理文档转换成可搜索的在线档案,从而减少纸张的使用。
Inky Notion是一款能够将纸质笔记轻松转换为Notion页面的工具。用户只需在纸上书写,然后拍照,Inky便会将这些文字转化为美观的Notion页面,安全存储并便于搜索。这是减少屏幕时间的好方法,适合记录创意、日记等。
V7 Go利用生成性AI技术自动化任务和文档处理,帮助企业高效、可靠地将图像和文档转化为结构化数据,从而减轻后勤工作的负担,让企业专注于更重要的事务。
xDesk是一款生产力工具,帮助用户组织数据,通过面部识别保护数据,录制和注释音频,扫描文档并转换为可搜索的PDF文件,拍摄并注释照片,以及创建自定义项目。
OCR Magic是一款支持几乎所有语言的高级文本识别应用,利用光学字符识别技术,能够将图像和文档中的文本扫描并转换为可编辑和可搜索的数字文本。
OLOCR是一个在线OCR服务,提供无限次的图像和PDF文本提取。用户只需将文件上传至平台,即可轻松提取文本。
Intics是一款强大的文档处理工具,能够理解和捕捉任何格式的文本(包括印刷体和手写体)、表格、图片、商标、照片或地图。支持文档、PDF或图像等多种格式,助力用户快速提取信息并实现数据转化。
一款功能强大的文档管理系统,能够将纸质文档转换成在线可搜索的文档,并进行分类和索引,方便随时搜索查阅。
Papermerge DMS 是一个免费的开源文档管理系统,具备光学字符识别(OCR)功能,能够自动提取、分析和索引文档中的文本内容。用户只需在服务器或云平台上安装该系统,即可上传扫描文件、数字档案、PDF、TIFF、JPEG等格式的文档。
Ripcord 是一个将传统文档管理转变为动态数据强大的平台,利用先进的机器人技术和人工智能将纸质和数字文档转换为可操作、可访问且高准确度的数据,帮助组织优化文档驱动的流程,挖掘数据利用的新机会。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型