紫东太初2.0是由武汉人工智能研究院、中国科学院自动化所和华为公司联合研发的新一代多模态大模型平台,基于昇腾AI和MindSpore AI框架。它从全球首个图文音三模态大模型升级而来,旨在建设中国通用人工智能智能基础,加速认知智能时代的发展。平台支持文本、图像、视频、音乐、音频、3D和信号等多种模态,功能涵盖文本创作、图像生成、视频理解、音乐处理、3D场景描述和信号分析等。
Advanced Literate Machinery (ALM) 是阿里巴巴研究团队开发的一个高级文档智能系统,旨在赋予机器阅读、思考和创造的能力。项目当前专注于从图像和文档中提取信息,未来将探索让机器具备更高层次的智能。项目包含多个子模块,如OmniParser、Platypus、SceneVTG等,涵盖了文本识别、关键信息提取、表格识别、文档解析等多种功能。
PaddleOCR是一个基于PaddlePaddle深度学习框架构建的开源OCR(光学字符识别)工具库,旨在为开发者提供一套全面、领先且实用的工具,以训练高质量的OCR模型并将其应用于实际场景中。它提供了多种OCR相关的前沿算法,并在此基础上构建了产业级特色模型,如PP-OCR、PP-Structure和PP-ChatOCR,覆盖了从数据生产到模型训练、压缩和预测部署的完整流程。
EasyOCR是一个开源的光学字符识别(OCR)工具,支持多种语言的文本识别。通过深度学习大模型,基于其强大的AI功能,能够快速准确地识别图像中的文本,支持超过80种语言,适合各种图像文本提取任务,无论是扫描文档、手写文字,还是图片中的文字都能高效识别。
MiniCPM-V 是一款拥有 8B 参数的先进 AI 模型,性能优于 GPT-4V 等顶级型号,提供卓越的 OCR 功能,并支持 30 多种语言。它是一个强大的端侧多模态大语言模型,在单图像、多图像和视频理解方面超越了 GPT-4V,支持在 iPad 等终端设备上进行实时视频理解。MiniCPM-V 2.0 是一个高效的端侧多模态大模型,具有强大的 OCR 和图文理解能力,并且是一个开源项目。
该项目提供了一种利用多模态半监督学习进行文本识别的方法,结合了标记和未标记数据以提高识别精度。
分享一个端到端的开源 OCR 模型,号称 OCR 2.0,支持场景文本、文档、乐谱、图表、数学公式等内容识别,拿到了 BLEU 0.972 高分。
Gogosseract,一个通过 Wazero 实现的无 CGo Tesseract OCR 的 Go Lib。它提供高效的光学字符识别功能,支持多种语言,易于集成到各种 Go 应用程序中。
Surya 是一款开源且强大的文档 OCR 工具,专注于文档图像的处理和分析。它支持 90 多种语言的文本检测与识别,包括中文、英文、日语、阿拉伯语等复杂语种。Surya 具备高效的布局分析能力,能够准确识别文档中的每一行文字,并支持复杂排版的阅读顺序检测。此外,它还支持表格、图像、标题等元素的检测,并且在非拉丁语系文档处理中表现优异,处理速度比 Tesseract 快 3 倍。
TextScan AI是一款免费的移动应用程序,允许用户从图像中提取文本并与AI驱动的聊天机器人互动。用户只需安装应用,选择包含文本的图像,应用就会扫描并转换文本。此外,用户还可以与聊天机器人进行对话,享受智能交互体验。
OCR Magic是一款支持几乎所有语言的高级文本识别应用,利用光学字符识别技术,能够将图像和文档中的文本扫描并转换为可编辑和可搜索的数字文本。
TranslateImages是一个图像翻译系统,具有强大的编辑功能。它能够识别图像中的文本,清理背景并填入翻译后的文本。该系统保留原始图像的文本格式,如字体、颜色和位置,并提供编辑器用于微调。
Xiangji 1.0是一个专为电商和市场营销专业人士设计的AI生产工具,可以生成高质量的商品照片。用户只需提供样本产品图像,AI算法便能生成融合背景的高质量商品照片,帮助提升产品展示效果。
微软开源的多语言翻译工具,基于Azure AI服务,只需一条命令即可完成项目的多语言本地化。支持Markdown文件和图片中文本的自动翻译,保持原有格式,使用Azure OpenAI和计算机视觉服务提供高质量翻译。
PDNob Image Translator是一款创新的AI驱动工具,利用先进的AI-OCR技术,无缝翻译图像中的文本,支持100多种语言,处理数据在本地进行,确保用户隐私。
这款专业翻译扩展完美解决了Google Chrome中的翻译问题,提供比百度翻译、有道翻译和火山翻译更强大的翻译功能。它包括整页翻译、选词翻译、PDF翻译、Deepl集成、学术文档翻译、词典定义、图像翻译、截图翻译、在线翻译、Google翻译和翻译发音等多种功能。
InstaText是一款获奖的在线写作和编辑工具,旨在帮助用户改善文本,使其更易读、易懂。用户只需将文本复制粘贴到InstaText编辑器中,AI驱动的工具将提供写作改进建议,包括重述、改写和语法错误修正等。
Intics是一款强大的文档处理工具,能够理解和捕捉任何格式的文本(包括印刷体和手写体)、表格、图片、商标、照片或地图。支持文档、PDF或图像等多种格式,助力用户快速提取信息并实现数据转化。