Bunny开源项目 – 轻量级多模态通用框架
Bunny是一个轻量级但功能强大的多模态通用框架,兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练,支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码器(Vision Encoder)、跨模态投影器(Cross Modality Projector)和大语言模型(Large Language Model)。通过特殊的token `` 来定位图像嵌入的位置,并将图像和文本模态的嵌入维度对齐,从而实现多模态融合。Bunny还提供了多种预训练模型和训练教程,支持高分辨率图像处理,并在多个基准测试中表现出色。