空间参考理解

Ferret-一款出色的多模态大型语言模型

Ferret是来自苹果的新型多模态大型语言模型，擅长图像理解和语言处理，尤其在理解空间参考方面展现了显著的优势。

图像理解多模态交互多模态大型语言模型空间参考理解

PandaGPT开源项目 – 多模态AI助手，支持图文分析

PandaGPT开源项目 – 多模态AI助手，支持图文分析

PandaGPT整合了Meta的ImageNet和开源大语言模型Vicuna，实现了LLM的多模态输入和输出，能够处理图像与文本的联合任务，提供用户友好的界面，便于社区的贡献和扩展。

图像生成图文分析多模态AI助手开源项目

Anole开源项目 – 开源多模态生成模型

Anole开源项目 – 开源多模态生成模型

Anole是一个开源的自回归原生多模态模型，专注于交错图像和文本的生成。它支持文本到图像生成、交错文本-图像生成、文本生成及多模态理解，旨在提供丰富的生成能力和理解能力。

交错文本-图像生成多模态理解开源多模态生成模型文本到图像生成

LAVIS开源项目 – 多模态生成模型，支持多种任务

LAVIS开源项目 – 多模态生成模型，支持多种任务

LAVIS是一个一站式的语言-视觉智能库，支持多种语言-视觉任务，集成多种预训练模型，提供简单易用的API，以及自定义模型的训练和评估，具备高效的推理速度和性能。

图像-文本检索图像描述生成多模态生成模型生成式视觉内容创作

Spine官网 – 智能对话接口平台

Spine AI 是一个平台，帮助团队在内部 API 上构建对话接口，使用户能够与 AI 助手进行交互，推动企业在产品中集成 AI 能力，无需 AI 团队。AI 助手能够执行任务、提供实时数据洞察并理解用户意图。

AI对话接口平台业务洞察工具企业AI集成多模态输入选项

MiniGPT-4开源项目 – 视觉与语言结合的智能模型

MiniGPT-4开源项目 – 视觉与语言结合的智能模型

MiniGPT-4是一款结合视觉与语言的大模型，能够基于图片内容生成描述、回答问题，甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色，可识别图像细节、物体关系，并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本，提供强大的自然语言处理能力，适用于多种AI应用场景，包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。

MiniGPT-4图像与文本结合应用图像描述生成多模态信息处理

多模态教科书开源项目 – 视觉与语言的完美结合

多模态教科书开源项目 – 视觉与语言的完美结合

一种用于视觉-语言预训练的多模态数据集，通过将图像和文本交错排列，提供丰富的基础知识，帮助模型更好地理解和生成多模态内容

图像与文本交互分析多模态数据集多模态预训练视觉-语言模型训练

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

Mini-Gemini开源项目 – 挖掘多模态视觉语言模型潜力

一个专注于挖掘多模态视觉语言模型潜力的开源项目，支持从2B到34B不同规模的密集和MoE大型语言模型，具备图像理解、推理和生成的能力。

LLaVA框架图像理解多模态视觉语言模型开源项目

Janus-Pro开源项目 – 统一多模态理解和生成的先进模型

Janus-Pro开源项目 – 统一多模态理解和生成的先进模型

Janus-Pro是DeepSeek发布的多模态大模型，专注于图像生成和理解。它采用自回归框架，通过分离视觉编码为‘理解’和‘生成’两条路径，提升了框架的灵活性和性能。该模型在图像生成、图像描述、地标识别、视觉常识、OCR等任务上表现出色，并在多模态理解和文本到图像生成基准测试中取得了SOTA性能。模型规模扩展至70亿参数，支持多种输入形式的理解和生成，适用于各种多模态应用场景。

Janus框架图像与文本联合理解多模态理解与生成自然语言处理

Merlin开源项目 – 新型多模态大模型，提升视觉理解

Merlin是一种由和支持的新型MLLM，展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM（MLLMs）中，以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练（FPT）和预见性指令调优（FIT）技术。

图像分析多模态大模型未来推理机器学习

ImageToPromptAI官网 – 从图像生成文本提示的AI工具

ImageToPromptAI是一个基于AI的工具，能够从上传的图像中生成文本提示。用户只需登录账号，上传想要生成提示的图像，AI会分析这些图像并生成相关的文本提示。该工具适用于艺术创作、设计广告以及图像分析等多个领域。

从图像生成文本提示的工具图像内容分析广告制作艺术创作

kimi-k1.5开源项目 – 多模态思考模型，超越SOTA

kimi-k1.5开源项目 – 多模态思考模型，超越SOTA

kimi-k1.5 是月之暗面发布的多模态思考模型，具有强大的数学、代码、视觉多模态和通用能力，在短思考和长思考模式下均超越了多个 SOTA 模型。

多模态推理模型强化学习优化文本和视觉数据联合训练智能对话系统

Qwen-VL-多模态版的Qwen开源项目 – VL项目

Qwen-VL-多模态版的Qwen开源项目 – VL项目

Qwen-VL是一个支持多种模态输入的高性能项目，旨在提供图像理解和生成能力，并具备灵活的API接口，适合多种应用场景。

API接口图像captioning图像理解图像生成

Data Extraction官网 – 将非结构化数据转换为可用信息

Data Extraction是一个初创公司，专注于将图像和文档中的非结构化数据转换为有组织且可用的信息。用户只需上传图像或文档，我们强大的算法将分析内容并提取相关信息。

图像处理手写笔记数字化数据提取文档分析

Scalable Vector Search开源项目 – 高效的向量相似性搜索库

Scalable Vector Search开源项目 – 高效的向量相似性搜索库

这是一个用于向量相似性搜索的性能库，利用本地自适应向量量化和高度优化的索引与搜索算法，实现了在数十亿个高维向量上进行高精度和极快速度的搜索，同时比替代品占用更少内存。

向量相似性搜索库图像文本相似性分析推荐系统机器学习模型优化

SuperClass-视觉开源项目 – 语言预训练分类的最佳实践

SuperClass-视觉开源项目 – 语言预训练分类的最佳实践

SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目，通过整合视觉和语言模态，优化预训练任务的性能。

分类准确性优化多模态AI研究视觉语言预训练

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot是亚马逊开源的多模态链式思维（Multi-modal Chain of Thought）模型，旨在提升大语言模型在复杂任务中的表现。它支持多模态输入，包括文本和图像，并通过链式思维增强推理能力，特别针对复杂任务进行了优化的架构设计，方便研究人员和开发者进行二次开发。

复杂任务推理多模态链式思维模型大语言模型优化开源项目

Qwen-VL-强大的视觉语言模型

阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型，结合了图像和文本输入，能够生成准确的文本和边界框输出，增强了图像描述、问答、定位和文本-图像理解等任务的能力。

图像定位图像描述生成文本-图像理解视觉语言模型

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3