PaliGemma 2官网 – Google发布的增强视觉模型

PaliGemma 2是Google发布的新一代视觉模型，主要在OCR、图像分割和问题回答等方面进行了显著增强。该模型能够更准确地识别图像中的文字，更精细地分割图像中的对象，并更智能地回答与图像内容相关的问题。

PaliGemma 2的特点:

1. 增强的OCR功能，提升文字识别准确率
2. 改进的图像分割能力，精确分离图像对象
3. 提升的问题回答性能，智能理解图像内容

PaliGemma 2的功能:

1. 用于OCR任务，如识别图像中的文字
2. 用于图像分割，如从图像中分离出特定对象
3. 用于问题回答，如根据图像内容回答相关问题

相关导航

WeCLIP开源项目 – 用于弱监督语义分割的强大模型

WeCLIP是一个强大的语义分割模型，基于冻结的CLIP结构，致力于弱监督学习，通过有效的特征提取提升图像分割的性能，适用于各种计算机视觉任务。

DeepSeek-VL2开源项目 – 多模态视觉语言模型

DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型，旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展，特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。

DINOv2开源项目 – Meta开源的自监督视觉模型

DINOv2是Meta AI开发的最先进计算机视觉模型，具有自监督学习功能，无需大量标注数据即可训练。它能够直接从图像中学习特征，适用于图像分类、分割、检索和深度估计等多种任务。DINOv2的预训练版本已上线，与CLIP和OpenCLIP等模型竞争，并在众多任务中表现出色。

Amazon Q Business官网 – 生成式AI助手，安全处理企业数据

Amazon Q Business 是一款基于生成式AI的Chrome扩展，能够安全地回答问题、总结内容并完成任务，利用企业数据为用户提供支持。

docling-api开源项目 – 高效文档转换后端

docling-api是一个高效、可扩展的文档转换后端服务器，能够轻松将多种文档格式（如PDF、DOCX、PPTX、HTML、图片等）转换为Markdown格式。它支持CPU和GPU处理，尤其在GPU模式下性能显著提升。该API提供同步和异步接口，满足不同场景需求，并支持多语言OCR，覆盖法语、德语、西班牙语等多种语言。此外，它还支持文本和表格提取，以及批量处理功能。

Paperless-ngx开源项目 – 开源文档管理系统，减少纸张使用

一个开源的文档管理系统，可以将你的物理文档转换成可搜索的在线档案，从而减少纸张的使用。

Computer Vision with DirectAI官网 – 无代码构建强大的计算机视觉模型

DirectAI使用户能够快速构建强大的计算机视觉模型，无需编码或训练数据。它利用大型语言模型和零样本学习，根据用户的描述生成适合的模型。

dinov2-finetune开源项目 – DINOv2编码器微调助手

DINOv2编码器微调助手利用低秩适应（LoRA）技术对视觉任务进行编码器权重微调，简化新任务适配过程，显著提高模型在图像分割等视觉任务上的表现。该项目支持DINOv2编码器的微调，优化视觉任务的性能，适用于计算机视觉领域的各种任务。

LISA开源项目 – 语言与视觉模型结合的分割助手

LISA是一个将语言大模型（LLM）与其他视觉模型（如SAM）结合的分割助手，旨在根据复杂和隐含的查询文本输出分割掩码。

Vary-toy官网 – 小型视觉语言模型

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型，参数量为1.8B，能够在消费级显卡（如1080Ti）上训练和运行。它支持多种视觉语言任务，包括处理图片中的文字、图表、公式，以及对象检测、图像描述、视觉问答等，同时支持中英文。通过改进的视觉词汇表增强视觉感知能力，Vary-toy在多个数据集上的表现与7B级模型相当甚至更好，且计算开销更低。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

LLaVA-Interactive-Demo开源项目 – 图像聊天与生成的AI应用

融合图像聊天、分割和生成/编辑的AI应用概念验证项目，基于LLaVA、SEEM和GLIGEN三个相关开源项目实现。

SPARC-多模态表示的精细化方法

SPARC是一种用于从图像-文本对中预训练更精细的多模态表示的方法，通过在描述中的每个token上学习图像块的分组来实现。

Simon官网 – 强大的语义搜索库

Simon是一个基于Python的库，支持OCR、数据摄取、语义搜索、抽取式问答、文本推荐和AI聊天等功能。它是开源的（Apache 2.0），并且可以在Postgres实例上运行。

DTLR开源项目 – 基于DINO-DETR的文本行识别方法

DTLR是一种基于DINO-DETR架构的通用文本行识别方法，支持印刷体（OCR）和手写体（HTR），以及拉丁、中文或密码字符的识别。它通过CNN骨干网络提取多尺度图像特征，并通过变换器编码器层进一步细化这些特征。解码器由一组查询组成，每个查询都与图像特征进行交互，以预测字符的边界框和类别概率。DTLR克服了以往基于检测的方法在HTR中的挑战，包括字符级标注的困难和成本高昂。它通过合成数据预训练、采用transformer检测器以及线级标注微调等技术，提升了手写体识别的效果。

暂无评论

暂无评论...