Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
PandaGPT整合了Meta的ImageNet和开源大语言模型Vicuna,实现了LLM的多模态输入和输出,能够处理图像与文本的联合任务,提供用户友好的界面,便于社区的贡献和扩展。
Anole是一个开源的自回归原生多模态模型,专注于交错图像和文本的生成。它支持文本到图像生成、交错文本-图像生成、文本生成及多模态理解,旨在提供丰富的生成能力和理解能力。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
Spine AI 是一个平台,帮助团队在内部 API 上构建对话接口,使用户能够与 AI 助手进行交互,推动企业在产品中集成 AI 能力,无需 AI 团队。AI 助手能够执行任务、提供实时数据洞察并理解用户意图。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
一种用于视觉-语言预训练的多模态数据集,通过将图像和文本交错排列,提供丰富的基础知识,帮助模型更好地理解和生成多模态内容
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
Janus-Pro是DeepSeek发布的多模态大模型,专注于图像生成和理解。它采用自回归框架,通过分离视觉编码为‘理解’和‘生成’两条路径,提升了框架的灵活性和性能。该模型在图像生成、图像描述、地标识别、视觉常识、OCR等任务上表现出色,并在多模态理解和文本到图像生成基准测试中取得了SOTA性能。模型规模扩展至70亿参数,支持多种输入形式的理解和生成,适用于各种多模态应用场景。
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
ImageToPromptAI是一个基于AI的工具,能够从上传的图像中生成文本提示。用户只需登录账号,上传想要生成提示的图像,AI会分析这些图像并生成相关的文本提示。该工具适用于艺术创作、设计广告以及图像分析等多个领域。
kimi-k1.5 是月之暗面发布的多模态思考模型,具有强大的数学、代码、视觉多模态和通用能力,在短思考和长思考模式下均超越了多个 SOTA 模型。
Qwen-VL是一个支持多种模态输入的高性能项目,旨在提供图像理解和生成能力,并具备灵活的API接口,适合多种应用场景。
Data Extraction是一个初创公司,专注于将图像和文档中的非结构化数据转换为有组织且可用的信息。用户只需上传图像或文档,我们强大的算法将分析内容并提取相关信息。
这是一个用于向量相似性搜索的性能库,利用本地自适应向量量化和高度优化的索引与搜索算法,实现了在数十亿个高维向量上进行高精度和极快速度的搜索,同时比替代品占用更少内存。
SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目,通过整合视觉和语言模态,优化预训练任务的性能。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型,结合了图像和文本输入,能够生成准确的文本和边界框输出,增强了图像描述、问答、定位和文本-图像理解等任务的能力。