LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672×672、336×1344、1344×336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8×20 GPU 小时、13B 模型 16×24 GPU 小时、34B 模型 32×30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

LLaVA-NeXT的特点:

1. 提升的图像分辨率：支持多种分辨率，如 672×672、336×1344、1344×336，通过 ‘AnyRes’ 技术动态处理高分辨率图像，捕捉更多视觉细节。
2. 改进的数据集：包括高质量的用户指令数据（如来自 LAION-GPT-V 和 ShareGPT-4V）以及多模态文档/图表数据（如 DocVQA、ChartQA、DVQA、AI2D），取代了 TextCaps，灵感来自 Qwen-VL-7B-Chat。
3. 支援更大语言模型：使用如 Vicuna-1.5（7B、13B）、Mistral-7B 和 Nous-Hermes-2-Yi-34B 等模型作为后端，提升语言理解能力。
4. 零次学习中文能力：仅使用英语多模态数据，却在 MMBench-CN 上达到最新状态，展示其跨语言适应性。
5. 开放源代码：代码、数据和模型均可公开访问，促进研究和应用开发。

LLaVA-NeXT的功能:

1. 视觉推理：增强对图像的逻辑推理能力，特别是在复杂场景下。
2. OCR 能力：改进的光学字符识别，适用于文档和图表分析。
3. 多模态指令遵循：能够处理图像和文本结合的指令，适用于多模态对话和任务。
4. 从 GitHub 仓库下载模型：LLaVA-NeXT GitHub。
5. 使用 SGLang 进行部署和推理，相关工具可在 SGLang GitHub 找到。
6. 根据模型变体选择合适的大小（7B、13B 或 34B），每个变体的详细规格如下：模型名称、模型大小、视觉编码器、连接器、LLM、分辨率。

相关导航

Gauss2官网 – 三星第二代多模态生成AI

Gauss2是三星在2024年韩国开发者大会(SDC24 Korea)发布的第二代多模态生成性AI模型，支持语言、代码和图像处理。提供Compact(紧凑型)、Balanced(平衡型)、Supreme(至尊型)三种版本，分别适用于设备端、通用场景和云端高性能需求。支持9-14种自然语言和多种编程语言，处理速度比主流开源模型快1.5-3倍。目前主要用于三星内部生产力工具，未来计划集成到消费产品中。

GPT-4o官网 – 多模态AI模型，支持文本、图像、音频处理

GPT-4o是OpenAI开发的多模态AI模型，集成了文本、图像和音频处理能力。它通过高精度语音转文本和可控的文本转语音技术，帮助开发者解决嘈杂环境下语音识别不准及语音输出缺乏个性化的问题，为构建智能语音代理和高效转录场景提供核心支持。该模型支持多种API调用，包括聊天完成API、助手API和批处理API，适合多种应用场景。

Maya开源项目 – 多语言多模态的大型语言模型

Maya是一款能够理解和生成多种语言的文本和图像内容的大型语言模型，特别适合需要跨语言交互的应用场景。

GPTsGarden官网 – 一站式定制GPT平台

GPTsGarden是一个提供数千种定制GPT的平台，用户可以在此找到各种功能的GPT，并获取关于新GPT的最新信息。用户可以通过搜索框搜索所需的GPT，或浏览不同类别，找到所需功能并访问其功能特性。

Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

Grok API官网 – xAI推出的AI模型接口

Grok API是xAI公司于2024年10月推出的人工智能模型接口，支持函数调用，便于与数据库和搜索引擎集成。目前提供“grok-beta”模型，支持文本和代码生成，未来计划推出视觉模型用于图像处理。定价较高，输入token为5美元/百万，输出token为15美元/百万。与X平台深度集成，支持图像生成、新闻总结等功能。尽管功能强大，但用户报告支付和使用配额问题，数据中心运营也引发环保争议。

RembgAI官网 – 快速、准确的在线背景去除工具

RembgAI 是一个快速、准确且免费的在线服务，用户可以轻松地从图像中去除背景。它使用先进的算法，瞬间增强照片，通过去除不需要的背景来提升图像质量。

Extreme-Multi-Patch Self-Supervised-Learning (EMP-SSL) – 高效自监督学习新方法

EMP-SSL是一种创新的自监督学习方法，通过增加每个图像实例中的图像块数量，显著提高了自监督学习的效率。该方法不依赖于常见的启发式技术，如分支之间的权重共享，并采用了特征归一化、输出量化和停止梯度等技术，使得训练时间减少了两个数量级，同时在多个数据集上实现了高准确率。

docling-api开源项目 – 高效文档转换后端

docling-api是一个高效、可扩展的文档转换后端服务器，能够轻松将多种文档格式（如PDF、DOCX、PPTX、HTML、图片等）转换为Markdown格式。它支持CPU和GPU处理，尤其在GPU模式下性能显著提升。该API提供同步和异步接口，满足不同场景需求，并支持多语言OCR，覆盖法语、德语、西班牙语等多种语言。此外，它还支持文本和表格提取，以及批量处理功能。

WALDO开源项目 – 无人机低空目标检测AI模型

WALDO是一款基于YOLO-v8大模型和合成数据训练的AI检测模型，专为无人机领域的低空可识别目标检测而设计。它能够在高空和低空图像中高效检测多种目标，如轻型车辆、人员、建筑物、公用设施杆、船只、自行车、集装箱、卡车、储气罐、挖掘机、太阳能电池板、巴士等。该模型已成功应用于灾害评估中的失踪人员搜索、野生动物保护区中的入侵监测、停车场和交通流量管理中的人数和车辆计数、建筑工地和基础设施的远程监控等场景。

Awesome-Document-Understanding开源项目 – 文档理解研究资源库

AI文档理解相关文献资源列表，专注于文档人工智能（Document Artificial Intelligence）领域。该项目收集了大量关于文档理解的研究文献和资源，涵盖了文档人工智能的多个子领域，如OCR、文本分析、图像处理等。持续更新，保持与最新研究进展同步，提供了丰富的参考资料和工具链接，适合研究人员、开发者和学生使用。

OminiControl开源项目 – 通用扩散模型控制框架

OminiControl是一个极简且通用的控制框架，基于FLUX模型，专为高效控制扩散变换模型而设计。它通过仅增加0.1%的参数，无需改变基础模型结构，支持主体驱动控制和空间控制（如边缘引导和图像修复）。该框架适用于多种复杂视觉任务，包括边缘到图像、深度到图像、上色、去模糊和图像修复等。

DeepSeek-VL2开源项目 – 多模态视觉语言模型

DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型，旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展，特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。

Clio Image Maker for Whatsapp & Telegram官网 – 随时随地创建和编辑图片

Clio Image Maker 是一款便捷的工具，用户可以通过 Whatsapp 或 Telegram 直接创建和编辑图像。无论身在何处，用户都能利用文本或草图生成视觉内容，使用高级编辑功能，移除背景，参考素材，制作变体，提升图像质量等，极大地丰富了用户的创作体验。

DTLR开源项目 – 基于DINO-DETR的文本行识别方法

DTLR是一种基于DINO-DETR架构的通用文本行识别方法，支持印刷体（OCR）和手写体（HTR），以及拉丁、中文或密码字符的识别。它通过CNN骨干网络提取多尺度图像特征，并通过变换器编码器层进一步细化这些特征。解码器由一组查询组成，每个查询都与图像特征进行交互，以预测字符的边界框和类别概率。DTLR克服了以往基于检测的方法在HTR中的挑战，包括字符级标注的困难和成本高昂。它通过合成数据预训练、采用transformer检测器以及线级标注微调等技术，提升了手写体识别的效果。

暂无评论

暂无评论...