2025年最强大的视觉指令微调AI工具推荐

Bunny开源项目 – 轻量级多模态通用框架

Bunny是一个轻量级但功能强大的多模态通用框架，兼容Llama、Qwen2、Phi3等多种大模型。它主要用于图文双模态的训练，支持多种主流视觉模型和大语言模型。Bunny的架构包括视觉编码器（Vision Encoder）、跨模态投影器（Cross Modality Projector）和大语言模型（Large Language Model）。通过特殊的token `` 来定位图像嵌入的位置，并将图像和文本模态的嵌入维度对齐，从而实现多模态融合。Bunny还提供了多种预训练模型和训练教程，支持高分辨率图像处理，并在多个基准测试中表现出色。