一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
一种用于视觉-语言预训练的多模态数据集,通过将图像和文本交错排列,提供丰富的基础知识,帮助模型更好地理解和生成多模态内容
E.T. Bench旨在实现开放事件级的视频语言理解,结合视频和语言数据,推动多模态学习的进展。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
Macaw-LLM是一项探索性的努力,它通过无缝地结合图像、视频、音频和文本数据,开创了多模态语言建模。
该项目提供遥感基础模型相关论文的资源列表,涵盖遥感视觉、视觉-语言、生成式、位置和音频等多个方向的模型,旨在为研究人员提供全面的参考和支持。
VLM-Visualizer是一个视觉-语言模型注意力可视化工具,旨在通过结合语言模型和视觉变换器的注意力权重,生成输入图像上的注意力图,以直观展示模型在生成特定令牌时关注图像的哪些部分。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
Kirsch AI是一个为Midjourney和Stable Diffusion提供支持的AI驱动的提示和图像生成器,允许用户以新颖的方式与这些工具互动,结合AI属性和设置。用户需先创建一个免费账户,下载适用于Windows或MacOS的应用程序以获得更好的使用体验,未来还将推出Android和iOS版本。
ChatGenius是一个基于GPT的先进AI聊天应用,提供智能、无缝的对话体验,能够即时准确地回答用户的问题。
质衡: 通用基础模型在底层视觉上的基准测试,包含中文版【底层视觉问答】和【底层视觉描述】数据集,以及中文提示下的图片质量评价。
基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型,建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。
Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。