VILA是一系列开源的视觉语言模型(VLM),旨在优化视频理解和多图像理解的效率和准确性。它通过预训练和多模态设计,支持长视频理解、多图像推理和高效的边缘部署。VILA在多个基准测试中表现优异,适用于自动驾驶、医疗影像分析等领域。
Basalt 是 Facebook Research 开发的一个开源项目,旨在为视觉导航任务提供强化学习框架。它支持多种环境下的导航任务,包括虚拟环境和真实世界环境。Basalt 提供了一个灵活的接口,允许用户自定义任务、环境和奖励函数,从而进行高效的强化学习训练。该项目特别适用于需要复杂视觉感知和决策能力的导航任务。
CenterMask2是基于Detectron2框架的实时无锚点实例分割模型,是原始CenterMask的升级版,专注于高质量和高效的物体实例分割。它通过改进的实例分割精度和减少计算开销,适用于多种视觉任务,并支持自定义数据集的训练和推理。
Drive-OccWorld是一个基于视觉的4D空间占用预测与规划项目,专注于为自动驾驶提供全新的解决方案。它通过精准建模动态物体与静态环境的未来状态,结合集成世界模型,实现连续预测与规划,为自动驾驶系统提供强大的环境感知与预测能力。
YOLOv10是由清华大学开发的开源项目,旨在通过端到端的YOLOv10模型在速度和精度上超越YOLOv8和YOLOv9。该项目专注于高效的物体检测能力,适用于多种实时应用场景。
Awesome-LRM-Safety是一个专注于收集大型推理模型(LRM)安全相关研究的精选资源库。它涵盖了热门模型如DeepSeek-R1和OpenAI o1的安全性,提供最新arXiv论文的自动更新,内容涉及安全风险、缓解策略和伦理问题。项目还涵盖多个关键领域,如自动驾驶、医疗保健和金融安全,为研究人员、开发者和教育机构提供全面的资源支持。
Sparse Fuse Dense项目旨在通过深度补全技术实现高质量的3D检测,适用于自动驾驶和机器人视觉等领域。该项目利用先进的算法将稀疏的深度信息与其他数据源融合,从而提高3D对象检测的准确性和可靠性。
NVIDIA是GPU的发明者,专注于在笔记本、工作站、移动设备和PC等上创建交互式图形,构建了全球最大的游戏平台和世界上最快的超级计算机,还在自动驾驶汽车、智能机器和物联网领域发挥着重要作用。
该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究,涵盖了感知理解、导航规划、决策控制等多个领域,提供最新研究进展和相关论文,旨在推动该领域的发展和应用。
Hailo通过先进的处理器和软件解决方案,专注于边缘设备上的AI能力,降低延迟,提升效率,适用于汽车、工业自动化等多个领域。
Duckietown是一个用于学习和研究机器人技术与人工智能的项目,提供了一个实践平台,通过模拟和真实环境帮助用户理解自动驾驶车辆的工作原理。
一个精选的关于世界模型的论文列表,涵盖通用视频生成、具身AI和自动驾驶领域,包括论文、代码和相关网站。
该项目旨在利用单个车载摄像头图像估计局部路网,同时保持拓扑结构。通过有效的算法,能够在复杂的城市环境中提取和重建道路网络信息,支持自动驾驶等应用。
一个利用肌肉骨骼仿生机器人实现自动驾驶的项目,详细模仿了人体,适合在复杂环境中运动。
该项目旨在通过多LiDAR布置来提高自动驾驶中物体检测的准确性,探索不同LiDAR配置对3D检测性能的影响。
用大型语言模型重新思考自动驾驶,使用GPT-3.5作为默认的大型语言模型(LLM),介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法
GrUMoDepth 是一种通过梯度方法进行的不确定性估计,专注于单目深度估计,旨在提高深度估计的准确性和可靠性。
NanoSAM是一个经过蒸馏的Segment Anything (SAM)模型,能够在NVIDIA TensorRT上实现实时推理,适用于各种图像分割任务。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型