LISA是一个将语言大模型(LLM)与其他视觉模型(如SAM)结合的分割助手,旨在根据复杂和隐含的查询文本输出分割掩码。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
该项目通过图像和文本提示结合,利用GroundingDINO生成边界框,然后通过SAM生成分割掩码,支持多种输入格式,旨在提升图像分割的准确性和灵活性。
Janus是一个多模态理解和生成一体的模型,能够同时理解图片内容并生成新图像。它通过解耦设计来满足理解和生成任务对视觉编码器的不同需求,采用统一的自回归变换器架构处理各种模态的输入。
CAST项目旨在通过图像分割和识别技术,实现层次化的图像处理,提升对象识别的能力。
FFMPerative 是一个简单的视频处理工具,利用大型语言模型(LLM)和HuggingFace的Agents & Tools,可以根据自然语言提示执行复杂的任务。