MONAI Vision Language Models开源项目 – 致力于医学应用的视觉语言模型

一个致力于医学应用的视觉语言模型集合，旨在解决通用模型在医学领域的挑战，并与专家分割和分类模型集成。
MONAI Vision Language Models的特点:
1. 提供一系列视觉语言模型
2. 包含基准测试和相关应用
3. 专注于医学领域的挑战
4. 与专家分割和分类模型集成

MONAI Vision Language Models的功能:
1. 用于医学影像分析中的语义理解
2. 支持医学图像的自动分割和分类
3. 提供基于视觉的医学数据处理和分析

相关导航

SKY ENGINE AI官网 – 革新合成数据的深度学习平台

SKY ENGINE AI 是一个前沿平台，专为数据科学家、AI开发者和研究人员设计，利用合成数据进行视觉AI深度学习。它能够在虚拟环境中生成和训练定制的AI模型，适用于汽车、医疗和国防等需要高保真视觉数据模拟的领域。

Gradio官网 – 简化机器学习模型交互

Gradio是一个强大的工具，旨在简化机器学习应用的构建和共享，提供用户友好的网络界面，使得任何人都能轻松与机器学习模型互动，无需复杂的编码知识。

Lunit官网 – 利用AI进行癌症筛查与治疗

Lunit Inc. 是一家利用人工智能开发癌症筛查和治疗先进技术的公司。其AI解决方案能够实现癌症的早期检测和治疗反应预测，最终拯救生命。

Vary开源 – 文档级OCR与图表理解新方法

Vary是一种新的视觉识别方法，专注于文档级OCR和图表理解。它通过两个阶段生成并整合新的视觉词汇，首先设计词汇网络和小型解码器，通过自回归生成所需词汇，然后通过合并新词汇和原始词汇（CLIP）来扩展原始视觉词汇，使大型视觉语言模型（LVLMs）能够快速获取新特征。Vary在保持原有能力的同时，展现出更出色的细粒度感知和理解能力，尤其擅长识别表格和公式，并具备多模态推理能力。

CognAgent官网 – 专注于GUI理解和导航的视觉语言模型

CognAgent 是一个基于18亿参数的视觉语言模型（VLM），专注于图形用户界面（GUI）的理解和导航。它支持高分辨率图像（1120x1120像素），能够识别文本、图标、按钮等元素，并根据用户指令执行点击、滑动、输入等操作。CognAgent在多个跨模态基准测试和GUI操作数据集上表现出色，支持中文和英文双语交互，并且是一个开源项目。

VLM-Captioning-Tools开源项目 – 自动为图片生成描述的工具

利用视觉语言模型（VLMs）为图片自动生成描述的工具，具备自动检测并解决重复序列标题失败的功能，支持多种脚本和模型。该工具旨在提升图像描述的质量与多样性，适用于多种应用场景，如社交媒体、内容创作等。

Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

Vision-is-all-you-need开源项目 – 创新的文档检索系统

创新的文档检索系统(V-RAG)，无需传统的文本分块，直接利用视觉语言模型处理PDF文档。

arivis Cloud官网 – AI工具包，助力图像处理任务

arivis Cloud是一个配备AI工具包的平台，允许研究人员训练AI模型，自动化和自定义他们的图像处理任务。用户可以注册账户，上传图像或数据，使用AI工具包选择所需任务，训练AI模型或应用预训练模型，定制工作流程，自动化图像处理。

RL-VLM-F开源项目 – 视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

VILA开源项目 – 高效多模态视觉语言模型

VILA 是一个开源视觉语言模型 (VLM) 系列，旨在优化效率和准确性，适用于边缘、数据中心和云计算环境。它采用交错图像-文本预训练方法，支持多图像处理，并具有强大的上下文学习能力，能够快速学习新概念。VILA 在视频理解、多图像推理等任务中表现出色，广泛应用于研究和工业领域。

LLaMA-VID开源项目 – 处理长时间视频的多模态大模型

LLaMA-VID 是一种开源的多模态大模型，专门设计用于处理长时间的视频内容，如电影。它通过使用视觉语言模型（Vision Language Models, VLMs）来结合计算机视觉和自然语言处理，从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记（Token）来表示每一帧图像或视频：一个上下文标记（Context Token）用于编码整个图像或视频中最相关或最重要的部分，另一个内容标记（Content Token）用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息，并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频，并在多个视频榜单上实现了 SOTA（State of the Art）表现。

SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

Awesome-VLM-AD-ITS开源项目 – 自动驾驶与智能交通系统的视觉语言模型研究

该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究，涵盖了感知理解、导航规划、决策控制等多个领域，提供最新研究进展和相关论文，旨在推动该领域的发展和应用。

OK-Robot官网 – 零样本家庭拾取机器人

OK-Robot 是一个由 Meta 和纽约大学合作开发的开源机器人框架，专注于零样本、基于语言的拾取和放置任务，特别适用于真实家庭环境。它利用视觉语言模型（VLM）进行物体检测，结合导航和抓取模块，无需预训练即可执行任务。项目在10个真实家庭环境中测试，成功率达到58.5%，在整洁环境中可提升至82%。

Qwen2.5VL模型 – 阿里巴巴最新视觉语言模型

Qwen2.5VL 是阿里巴巴 Qwen 系列的最新旗舰视觉语言模型，专注于图像、文本和视频的多模态理解与识别。该模型在视觉代理、视频理解和文档解析等方面表现出色，支持层级定位、JSON 格式输出和秒级事件定位。Qwen2.5VL 能够处理超过 1 小时的视频，适用于安防、教育、商业和娱乐等多个领域。

DigiQ开源项目 – 用AI驱动设备控制的新方法，让机器学习更高效！

DigiQ 是一个利用人工智能技术，帮助用户通过少量数据训练高效的设备控制智能体的项目。它创新性地结合了视觉语言模型（VLM），显著提升了学习效果，并提供了完整的代码和预训练模型，方便用户复现和使用。

MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。