所有AI工具AI图像工具AI对话工具AI开源项目

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型,基于 LLaVA-1.5 进行改进,于 2023 年 10 月发布基础版本,并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力,特别...

标签:

AI交流(进群备注:LLaVA-NeXT)

LLaVA-NeXT 是一个先进的多模态模型,基于 LLaVA-1.5 进行改进,于 2023 年 10 月发布基础版本,并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力,特别是在视觉推理、OCR(光学字符识别)和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率(最高达 672×672、336×1344、1344×336)以及改进视觉指令调整数据集,显著增强了模型性能。它还支持更大的语言模型,如 Mistral-7B 和 Nous-Hermes-2-Yi-34B,进一步提升了其能力。LLaVA-NeXT 的训练成本低,仅需约 32 个 GPU 运行一天,使用不到 100 万视觉指令调整样本,总训练数据为 131.8 万样本,计算成本分别为 7B 模型 8×20 GPU 小时、13B 模型 16×24 GPU 小时、34B 模型 32×30 GPU 小时。这使其训练效率高于许多竞争对手,成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎,代码、数据和模型均可公开访问,得到了 A16Z 开源 AI 资助计划的支持。

LLaVA-NeXT的特点:

  • 1. 提升的图像分辨率:支持多种分辨率,如 672×672、336×1344、1344×336,通过 ‘AnyRes’ 技术动态处理高分辨率图像,捕捉更多视觉细节。
  • 2. 改进的数据集:包括高质量的用户指令数据(如来自 LAION-GPT-V 和 ShareGPT-4V)以及多模态文档/图表数据(如 DocVQA、ChartQA、DVQA、AI2D),取代了 TextCaps,灵感来自 Qwen-VL-7B-Chat。
  • 3. 支援更大语言模型:使用如 Vicuna-1.5(7B、13B)、Mistral-7B 和 Nous-Hermes-2-Yi-34B 等模型作为后端,提升语言理解能力。
  • 4. 零次学习中文能力:仅使用英语多模态数据,却在 MMBench-CN 上达到最新状态,展示其跨语言适应性。
  • 5. 开放源代码:代码、数据和模型均可公开访问,促进研究和应用开发。

LLaVA-NeXT的功能:

  • 1. 视觉推理:增强对图像的逻辑推理能力,特别是在复杂场景下。
  • 2. OCR 能力:改进的光学字符识别,适用于文档和图表分析。
  • 3. 多模态指令遵循:能够处理图像和文本结合的指令,适用于多模态对话和任务。
  • 4. 从 GitHub 仓库下载模型:LLaVA-NeXT GitHub。
  • 5. 使用 SGLang 进行部署和推理,相关工具可在 SGLang GitHub 找到。
  • 6. 根据模型变体选择合适的大小(7B、13B 或 34B),每个变体的详细规格如下:模型名称、模型大小、视觉编码器、连接器、LLM、分辨率。

相关导航

暂无评论

暂无评论...