所有AI工具AI图像工具AI学习网站AI开发框架AI开源项目

Bunny开源项目 – 轻量级多模态通用框架

Bunny是一个轻量级但功能强大的多模态通用框架,兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练,支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码...

标签:

AI交流(进群备注:Bunny)

Bunny是一个轻量级但功能强大的多模态通用框架,兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练,支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码器(Vision Encoder)、跨模态投影器(Cross Modality Projector)和大语言模型(Large Language Model)。通过特殊的token `` 来定位图像嵌入的位置,并将图像和文本模态的嵌入维度对齐,从而实现多模态融合。Bunny还提供了多种预训练模型和训练教程,支持高分辨率图像处理,并在多个基准测试中表现出色。

Bunny的特点:

  • 1. 兼容多种大语言模型和视觉模型
  • 2. 支持高分辨率图像处理(最高1152×1152)
  • 3. 提供多种预训练模型和训练教程
  • 4. 在多个基准测试中表现优异
  • 5. 支持LoRA微调和全参数微调

Bunny的功能:

  • 1. 使用HuggingFace Transformers进行模型推理
  • 2. 使用ModelScope进行模型推理
  • 3. 通过Gradio Web UI进行交互式模型推理
  • 4. 通过CLI进行命令行模型推理
  • 5. 进行模型的预训练和视觉指令微调

相关导航

暂无评论

暂无评论...