该项目是一个专注于多模态大型语言模型(MLLM)和视觉语言模型(VLM)推理的综合资源库,汇集了最具影响力的论文、代码、数据集、基准测试和资源。旨在为研究人员和开发者提供一站式学习平台,涵盖Chain-of-Thought、OpenAI o1、DeepSeek-R1等前沿推理技术,包含20+顶级论文和实操项目资源。
Kimi k1.5 是由 Moonshot AI 开发的多模态大型语言模型,通过强化学习技术训练,在数学、编码和视觉任务方面表现出色。其上下文窗口可达 128k tokens,适合处理复杂的推理问题。该模型在多项基准测试中达到最先进水平,如 AIME、MATH 500 和 Codeforces。
华为云 Pangu 模型是由华为开发的一系列多模态大型语言模型,旨在通过人工智能技术服务于政府、金融、制造业、采矿、气象等多个行业。该模型支持文本生成、多轮对话、阅读理解、代码生成和插件调用等功能,具有强大的参数规模和行业适应性。
HunyanVideo 是由腾讯开发的开源视频生成模型,拥有 13 亿参数,是目前最大的开源视频生成模型。它支持从文本描述生成视频,具有超现实画质、高语义一致性、流畅的运动画面和原生镜头转换等特点,适用于广告宣传、创意视频生成等商业场景。用户可以通过 GitHub 和 Hugging Face 访问模型权重、推理代码和算法,并通过腾讯元宝 APP 申请试用,API 也已开放测试。
mllm是一个专为移动和边缘设备优化的轻量级多模态大型语言模型推理引擎,能够在无需依赖外部库的情况下,支持多种模型和硬件架构,提供快速推理能力。
基于LLaMA 3.1的增强视觉指令微调工具,为多模态大型语言模型提供性能提升,公开发布8B参数模型的检查点。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
多模态大型语言模型3D应用相关资源列表,涵盖了3D理解、推理、生成和具身Agent等各种任务。该项目旨在为研究人员和开发者提供全面的工具和资源,以推动3D领域的研究与应用。
初步探索复现o1类多模态大型语言模型,旨在通过结合视觉和文本数据,提升模型的推理和理解能力,推动人工智能在复杂任务中的应用
Ferret-UI是一个能够理解移动UI的多模态大型语言模型(MLLM),支持根据用户指令执行各种开放任务,旨在增强对移动UI屏幕的理解。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
PandaGPT整合了Meta的ImageNet和开源大语言模型Vicuna,实现了LLM的多模态输入和输出,能够处理图像与文本的联合任务,提供用户友好的界面,便于社区的贡献和扩展。
Anole是一个开源的自回归原生多模态模型,专注于交错图像和文本的生成。它支持文本到图像生成、交错文本-图像生成、文本生成及多模态理解,旨在提供丰富的生成能力和理解能力。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
Spine AI 是一个平台,帮助团队在内部 API 上构建对话接口,使用户能够与 AI 助手进行交互,推动企业在产品中集成 AI 能力,无需 AI 团队。AI 助手能够执行任务、提供实时数据洞察并理解用户意图。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
一种用于视觉-语言预训练的多模态数据集,通过将图像和文本交错排列,提供丰富的基础知识,帮助模型更好地理解和生成多模态内容
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。