标签:视觉语言模型
探索 SmolVLM-256M:世界上最小的视觉语言模型
Hugging Face 发布的 SmolVLM-256M 是世界上最小的视觉语言模型,基于 SigLIP 图片编码器和 SmolLM2 文本编码器,能在移动平台上轻松运行,仅需不到 1GB 的 G...
多模态技术的崛起:从Kosmos-1到GPT-4,AI如何跨越视觉与语言的鸿沟
本文深入探讨多模态技术的发展历程及其在AI领域的应用,从Kosmos-1到GPT-4,分析视觉与语言模型的结合如何推动AI技术的进步。文章还讨论了多模态技术在实际应...
视觉语言模型(VLM)的崛起:从科研到商业应用的全面解析
本文探讨了视觉语言模型(VLM)在科研、商业和具身智能领域的应用与发展。从科研论文的版权争议到多模态信息检索系统的构建,再到人形机器人的具身智能突破,...
GPT4Scene与ScanAlign数据集:推动3D场景理解的新突破
本文介绍了GPT4Scene框架及其核心组件ScanAlign数据集,旨在通过重建3D点云、生成鸟瞰图和标记目标,帮助视觉语言模型(VLM)从纯视觉输入中理解3D场景。实验...
GPT4Scene:突破视觉语言模型的三维场景理解瓶颈
研究者提出了一种新框架GPT4Scene,旨在帮助视觉语言模型(VLM)从纯视觉输入中理解3D场景。该框架通过重建3D点云、生成鸟瞰图、标记目标以及构建ScanAlign数...
从文本到视觉语言:开源项目VLM-R1如何实现多模态图像识别新突破
开源项目VLM-R1成功将DeepSeek的R1方法从纯文本领域迁移到视觉语言领域,实现了多模态图像识别能力的新突破。该项目在GitHub上线后迅速获得广泛关注,登上热...
VLM-R1:多模态图像识别的革命性突破
开源项目VLM-R1将DeepSeek的R1方法从纯文本领域成功迁移到视觉语言领域,实现了多模态图像识别能力的新突破。该项目在GitHub上线后迅速获得广泛关注,登上热...
大语言模型在自动驾驶中的突破:LeapVAD技术的创新与应用
本文探讨了LeapVAD技术在自动驾驶领域的创新应用,该技术结合大语言模型和视觉语言模型,通过认知感知和Dual-Process思维,实现了更高效的驾驶决策和环境表征...
Helix系统:人形机器人通用智能的新突破与挑战
Figure公司推出的Helix系统结合了7B参数量的视觉语言模型S2和80M参数量的动作模型S1,旨在实现人形机器人的通用智能。然而,该系统面临硬件约束、数据训练与...
GRPO技术革新:从DeepSeek-R1到VLM-R1的视觉语言模型迁移
杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域,开发了VLM-R1项目。该项目采用GRPO技术,展示了卓越的推理能力,并在GitHub上获得广泛关注。