LLaVA框架

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

一个专注于挖掘多模态视觉语言模型潜力的开源项目，支持从2B到34B不同规模的密集和MoE大型语言模型，具备图像理解、推理和生成的能力。

LLaVA框架图像理解多模态视觉语言模型开源项目

多模态教科书开源项目 – 视觉与语言的完美结合

多模态教科书开源项目 – 视觉与语言的完美结合

一种用于视觉-语言预训练的多模态数据集，通过将图像和文本交错排列，提供丰富的基础知识，帮助模型更好地理解和生成多模态内容

图像与文本交互分析多模态数据集多模态预训练视觉-语言模型训练

E.T. Bench开源项目 – 开放事件级视频语言理解

E.T. Bench开源项目 – 开放事件级视频语言理解

E.T. Bench旨在实现开放事件级的视频语言理解，结合视频和语言数据，推动多模态学习的进展。

多模态学习开放事件级视频语言理解视频语言理解模型基准测试

Google Gemini Showcase And Guide官网 – 谷歌最新的多模态AI模型

Gemini是谷歌最大的AI模型，旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色，支持不同尺寸的优化：Ultra、Pro和Nano。Gemini从零开始构建为多模态，能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。

代码生成图像生成复杂推理多模态AI模型

Macaw-LLM开源项目 – 多模态语言建模的新探索

Macaw-LLM开源项目 – 多模态语言建模的新探索

Macaw-LLM是一项探索性的努力，它通过无缝地结合图像、视频、音频和文本数据，开创了多模态语言建模。

多媒体内容生成多模态语言建模实验性研究开源项目

Awesome Remote Sensing Foundation Models开源项目 – 遥感基础模型论文资源列表

Awesome Remote Sensing Foundation Models开源项目 – 遥感基础模型论文资源列表

该项目提供遥感基础模型相关论文的资源列表，涵盖遥感视觉、视觉-语言、生成式、位置和音频等多个方向的模型，旨在为研究人员提供全面的参考和支持。

生成式模型研究论文资源视觉-语言模型遥感基础模型

VLM-Visualizer-视觉开源项目 – 语言模型注意力可视化工具

VLM-Visualizer-视觉开源项目 – 语言模型注意力可视化工具

VLM-Visualizer是一个视觉-语言模型注意力可视化工具，旨在通过结合语言模型和视觉变换器的注意力权重，生成输入图像上的注意力图，以直观展示模型在生成特定令牌时关注图像的哪些部分。

模型分析注意力可视化工具视觉-语言模型输入图像注意力图

Ferret-一款出色的多模态大型语言模型

Ferret是来自苹果的新型多模态大型语言模型，擅长图像理解和语言处理，尤其在理解空间参考方面展现了显著的优势。

图像理解多模态交互多模态大型语言模型空间参考理解

Awesome Multimodal Large Language Models开源项目 – 多模态大语言模型的综合调研

Awesome Multimodal Large Language Models开源项目 – 多模态大语言模型的综合调研

该项目是对多模态大语言模型的全面调查，涵盖最新进展、模型比较和评估以及多种应用场景，信息更新频繁，确保时效性。

多模态大语言模型应用场景教学材料模型比较与评估

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot是亚马逊开源的多模态链式思维（Multi-modal Chain of Thought）模型，旨在提升大语言模型在复杂任务中的表现。它支持多模态输入，包括文本和图像，并通过链式思维增强推理能力，特别针对复杂任务进行了优化的架构设计，方便研究人员和开发者进行二次开发。

复杂任务推理多模态链式思维模型大语言模型优化开源项目

Kirsch AI官网 – AI驱动的图像与提示生成器

Kirsch AI是一个为Midjourney和Stable Diffusion提供支持的AI驱动的提示和图像生成器，允许用户以新颖的方式与这些工具互动，结合AI属性和设置。用户需先创建一个免费账户，下载适用于Windows或MacOS的应用程序以获得更好的使用体验，未来还将推出Android和iOS版本。

AI驱动的图像生成器Midjourney支持Stable Diffusion支持视觉灵感生成

ChatGenius官网 – 智能对话的AI助手

ChatGenius是一个基于GPT的先进AI聊天应用，提供智能、无缝的对话体验，能够即时准确地回答用户的问题。

AI聊天助手信息检索图像生成虚拟助手

Chinese-Q-Bench开源项目 – 中文视觉问答与描述基准测试

Chinese-Q-Bench开源项目 – 中文视觉问答与描述基准测试

质衡: 通用基础模型在底层视觉上的基准测试，包含中文版【底层视觉问答】和【底层视觉描述】数据集，以及中文提示下的图片质量评价。

中文视觉问答图片质量评价视觉描述基准测试通用基础模型评估

羽人开源项目 – 开源多模态大语言模型

羽人开源项目 – 开源多模态大语言模型

基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型，建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。

图片理解多轮对话开放域问答开源多模态大语言模型

Zero123++开源项目 – 仅需一图，生成多视角

Zero123++开源项目 – 仅需一图，生成多视角

Zero123++是一个基于扩散模型的图像生成工具，只需提供一张输入图像，即可生成该图像的多个视角，支持高质量图像的生成，适用于各种类型的图像，为计算机视觉和虚拟现实应用提供强大支持。

基于扩散模型的图像生成工具多视角图像生成虚拟现实支持计算机视觉应用

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3