Qwen2.5VL 是阿里巴巴 Qwen 系列的最新旗舰视觉语言模型,专注于图像、文本和视频的多模态理解与识别。该模型在视觉代理、视频理解和文档解析等方面表现出色,支持层级定位、JSON 格式输出和秒级事件定位。Qwen2.5VL 能够处理超过 1 小时的视频,适用于安防、教育、商业和娱乐等多个领域。
VILA是一系列开源的视觉语言模型(VLM),旨在优化视频理解和多图像理解的效率和准确性。它通过预训练和多模态设计,支持长视频理解、多图像推理和高效的边缘部署。VILA在多个基准测试中表现优异,适用于自动驾驶、医疗影像分析等领域。
紫东太初2.0是由武汉人工智能研究院、中国科学院自动化所和华为公司联合研发的新一代多模态大模型平台,基于昇腾AI和MindSpore AI框架。它从全球首个图文音三模态大模型升级而来,旨在建设中国通用人工智能智能基础,加速认知智能时代的发展。平台支持文本、图像、视频、音乐、音频、3D和信号等多种模态,功能涵盖文本创作、图像生成、视频理解、音乐处理、3D场景描述和信号分析等。
Gemini 2.0 是Google开发的多模态AI模型,专注于图像处理和生成,支持通过自然语言指令进行图像编辑。它能够保持编辑的一致性,并支持创意编辑,如组合不同图像或选择特定区域进行编辑。此外,它还具备音频输出、视频理解等功能,适合构建AI代理。
Qwen Chat 是由 Alibaba Cloud 开发的对话 AI 平台,可能是“通义千问”的海外版本,使用 QwQ-32B 模型。它提供全面的 AI 功能,包括聊天机器人、图像和视频理解、图像生成、文档处理、网络搜索集成和工具利用等,旨在满足用户在对话、内容生成和数据处理等多方面的需求。
VILA 是一个开源视觉语言模型 (VLM) 系列,旨在优化效率和准确性,适用于边缘、数据中心和云计算环境。它采用交错图像-文本预训练方法,支持多图像处理,并具有强大的上下文学习能力,能够快速学习新概念。VILA 在视频理解、多图像推理等任务中表现出色,广泛应用于研究和工业领域。
Qwen2.5-VL是一款功能强大的多模态语言模型,擅长视觉-语言任务,具备增强的文档解析、物体定位和视频理解能力。
OpenManus是一个开源项目,旨在让开发者能够轻松访问、修改和扩展Manus的功能。它无需邀请码,打破AI封闭生态,提供快速上手的体验。项目集成了多种成熟技术,包括大型语言模型(LLM)、AI Agent、计算机/浏览器使用、图像/视频理解、爬虫等,通过产品思维和工程集成,提供高效、智能的解决方案。
Unified Video Action Model 是一个专注于视频与动作建模的项目,旨在帮助机器人理解视频内容并预测后续动作。通过两阶段的训练方法,先进行视频生成,再进行动作预测,从而实现更优的效果。该项目支持多种模拟与真实机器人任务,涵盖了PushT、Libero10等数据集,并提供了Colab笔记本,方便用户快速上手体验。
SlowFast-LLaVA是苹果开源的一个用于视频理解和推理的免训练多模态大型语言模型。该模型无需任何数据微调即可直接应用于视频理解任务,并且在多种视频问答任务和基准测试中表现优秀,可媲美或优于最先进的视频LLMs。它适用于多种多模态任务,如视频问答、视频生成、视频分类等,是视频理解和推理任务的强基线模型。
Video-R1是一个为视频理解任务带来超强推理能力的多模态大模型。它首次在视频理解领域实现了准确率和推理长度的双重提升,使用7B参数模型,训练900步仅需10小时。通过强推理数据集的助力,Video-R1能够涌现出深度思考能力,为视频理解任务提供了强大的支持。
MM-RLHF 是一个多模态大语言模型对齐项目,旨在通过高质量指令数据和先进算法,提升模型在图像、视频理解和安全任务中的表现。该项目提供了20k高质量指令数据,覆盖多种任务,并提出全新的MM-DPO算法,显著提升模型性能。此外,项目还包含80k对比对,为强化学习训练提供强大支持。
MiniGPT4-Video是一个专为视频理解而设计的多模态大模型,能够同时处理时态视觉数据和文本数据,善于理解视频的复杂性,适用于多种视频内容的分析和处理任务。
OmAgent是一个多模态智能体系统,专注于利用多模态大语言模型能力以及其他多模态算法来处理各种多模态任务。它提供轻量级智能体框架omagent_core,专为解决多模态任务设计,并支持超长复杂视频理解,将长视频理解转换为多模态RAG任务,解决视频长度限制问题。此外,OmAgent采用递归的通用任务处理逻辑,基于Divide and Conquer算法思想,并自主使用‘进度条’工具,允许智能体重看视频细节以获取信息。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
LISA是一个将语言大模型(LLM)与其他视觉模型(如SAM)结合的分割助手,旨在根据复杂和隐含的查询文本输出分割掩码。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。