Awesome-VLM-AD-ITS开源项目 – 自动驾驶与智能交通系统的视觉语言模型研究

该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究，涵盖了感知理解、导航规划、决策控制等多个领域，提供最新研究进展和相关论文，旨在推动该领域的发展和应用。

Awesome-VLM-AD-ITS的特点:

1. 涵盖最新的视觉语言模型研究进展
2. 涉及多个关键领域，如感知理解、导航规划和决策控制
3. 提供大量相关论文和资源
4. 聚焦于自动驾驶与智能交通系统的应用

Awesome-VLM-AD-ITS的功能:

1. 查阅最新的视觉语言模型研究进展
2. 获取与自动驾驶相关的学术论文
3. 了解导航规划和决策控制的应用案例

相关导航

CitySwift官网 – 智慧公交数据平台

CitySwift是一个专为公交网络设计的智能运输数据平台，提升运营效率和数据管理，提供实时可操作的洞察，优化公交路线和调度。

moondream开源项目 – 轻量级视觉语言模型

Moondream是一款高效的开源视觉语言模型，结合了强大的图像理解能力和轻量级特征。它设计灵活且易于使用，能够在多种设备和平台上运行。项目提供两个模型变体：Moondream 2B（2亿参数，适用于通用图像理解任务）和Moondream 0.5B（500万参数，专为边缘设备优化）。

DAIR-V2X开源项目 – 大规模车辆基础设施合作3D物体检测数据集

DAIR-V2X是一个用于车辆与基础设施合作的3D物体检测的大规模数据集，旨在推动智能交通系统的发展，提供丰富的场景和多样的标签，以支持研究和应用。

Basalt开源 – 用于视觉导航的强化学习框架

Basalt 是 Facebook Research 开发的一个开源项目，旨在为视觉导航任务提供强化学习框架。它支持多种环境下的导航任务，包括虚拟环境和真实世界环境。Basalt 提供了一个灵活的接口，允许用户自定义任务、环境和奖励函数，从而进行高效的强化学习训练。该项目特别适用于需要复杂视觉感知和决策能力的导航任务。

compiler-and-arch开源项目 – 编译器与架构的资源集合

这是一个汇集了新兴编译器和架构相关的教程、论文、演讲及开源项目的资源列表。

VILA开源项目 – 高效视觉语言模型

VILA是一系列开源的视觉语言模型（VLM），旨在优化视频理解和多图像理解的效率和准确性。它通过预训练和多模态设计，支持长视频理解、多图像推理和高效的边缘部署。VILA在多个基准测试中表现优异，适用于自动驾驶、医疗影像分析等领域。

DigiQ开源项目 – 用AI驱动设备控制的新方法，让机器学习更高效！

DigiQ 是一个利用人工智能技术，帮助用户通过少量数据训练高效的设备控制智能体的项目。它创新性地结合了视觉语言模型（VLM），显著提升了学习效果，并提供了完整的代码和预训练模型，方便用户复现和使用。

Drive Like A Human开源项目 – 重新定义自动驾驶的智能交互

用大型语言模型重新思考自动驾驶，使用GPT-3.5作为默认的大型语言模型(LLM)，介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法

MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。

GrUMoDepth开源项目 – 基于梯度的不确定性单目深度估计

GrUMoDepth 是一种通过梯度方法进行的不确定性估计，专注于单目深度估计，旨在提高深度估计的准确性和可靠性。

CheXagent-用于胸部X光片解读的基础模型

CheXagent是一个基于视觉和语言的基础模型，专注于胸部X光片的解读，旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct，设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器，同时连接视觉和语言模态的网络，提供了新的评估基准CheXbench用于系统评估。

RL-VLM-F开源项目 – 视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

LLaVA-pp开源项目 – 增强多模态任务处理能力

LLaVA++是LLaVA模型的扩展，集成了Phi-3 Mini Instruct和LLaMA-3 Instruct模型，旨在提升视觉和语言指令处理能力。项目通过引入新模型如Phi-3-V和LLaVA-3-V，专注于提高指令跟随能力和处理学术任务数据集的能力。LLaVA++在多模态任务中表现出色，尤其是在指令跟随和视觉语言任务方面。项目提供了详细的安装指南和更新脚本，便于本地部署和测试。Model Zoo中列出了所有可用模型及其Hugging Face页面链接，方便用户访问和利用预训练权重。项目还更新了文档，包含最新发展和模型细节，并提供了完整的代码库，包括训练和微调模型所需的所有脚本和模块。此外，项目改进了README文件，突出了其开源性质和模型升级的重要性。

Qwen2.5VL模型 – 阿里巴巴最新视觉语言模型

Qwen2.5VL 是阿里巴巴 Qwen 系列的最新旗舰视觉语言模型，专注于图像、文本和视频的多模态理解与识别。该模型在视觉代理、视频理解和文档解析等方面表现出色，支持层级定位、JSON 格式输出和秒级事件定位。Qwen2.5VL 能够处理超过 1 小时的视频，适用于安防、教育、商业和娱乐等多个领域。

CognAgent官网 – 专注于GUI理解和导航的视觉语言模型

CognAgent 是一个基于18亿参数的视觉语言模型（VLM），专注于图形用户界面（GUI）的理解和导航。它支持高分辨率图像（1120x1120像素），能够识别文本、图标、按钮等元素，并根据用户指令执行点击、滑动、输入等操作。CognAgent在多个跨模态基准测试和GUI操作数据集上表现出色，支持中文和英文双语交互，并且是一个开源项目。

Drive-OccWorld开源项目 – 自动驾驶4D空间预测与规划

Drive-OccWorld是一个基于视觉的4D空间占用预测与规划项目，专注于为自动驾驶提供全新的解决方案。它通过精准建模动态物体与静态环境的未来状态，结合集成世界模型，实现连续预测与规划，为自动驾驶系统提供强大的环境感知与预测能力。

暂无评论

暂无评论...