来自艾伦人工智能研究所(Allen Institute for AI)的新模型Unified-IO 2,能够处理图像和语言的多模态模型之一。
一个多模态机器学习资源的集合,包含各种模型、工具和研究材料,旨在帮助研究人员和开发者获取相关知识和实现。
该项目是一个集成多种遥感数据源的多模态大语言模型,旨在提升视觉与语言的理解能力,支持遥感数据的分析与应用。
UnIVAL是一个统一模型,旨在处理图像、视频、音频和文本等多模态任务。它通过任务平衡和多模态课程学习进行有效预训练,展现出在图像和视频文本任务中的优越性能。该模型还支持通过多模态任务训练的权重插值,展示了不同任务之间的协同作用,从而提升整体性能。
阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型,结合了图像和文本输入,能够生成准确的文本和边界框输出,增强了图像描述、问答、定位和文本-图像理解等任务的能力。
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
VCoder是一个多功能视觉编码器,旨在提升多模态大语言模型的感知能力,支持图像推理和生成任务,能够识别和计算图像中的物体,同时提供分割和深度图等感知模式,并利用COCO数据集进行训练和评估。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
多模态持续学习资源库:汇集多模态持续学习方法的资源库,提供最新的研究进展和相关论文,助力人工智能领域的学习与发展
OAKINK2是一个关于复杂任务完成中双手与物体交互的综合数据集,旨在为手部动作的机器学习模型提供丰富的训练数据,促进机器人和人工智能领域对人类交互的模拟与评估。