视觉语言模型 | 第 2 页

探索 SmolVLM-256M：世界上最小的视觉语言模型

Hugging Face 发布的 SmolVLM-256M 是世界上最小的视觉语言模型，基于 SigLIP 图片编码器和 SmolLM2 文本编码器，能在移动平台上轻松运行，仅需不到 1GB 的 G...

AI快讯

4个月前

本文深入探讨多模态技术的发展历程及其在AI领域的应用，从Kosmos-1到GPT-4，分析视觉与语言模型的结合如何推动AI技术的进步。文章还讨论了多模态技术在实际应...

AI快讯

4个月前

本文探讨了视觉语言模型（VLM）在科研、商业和具身智能领域的应用与发展。从科研论文的版权争议到多模态信息检索系统的构建，再到人形机器人的具身智能突破，...

AI快讯

4个月前

本文介绍了GPT4Scene框架及其核心组件ScanAlign数据集，旨在通过重建3D点云、生成鸟瞰图和标记目标，帮助视觉语言模型（VLM）从纯视觉输入中理解3D场景。实验...

AI快讯

4个月前

研究者提出了一种新框架GPT4Scene，旨在帮助视觉语言模型（VLM）从纯视觉输入中理解3D场景。该框架通过重建3D点云、生成鸟瞰图、标记目标以及构建ScanAlign数...

AI快讯

4个月前

开源项目VLM-R1成功将DeepSeek的R1方法从纯文本领域迁移到视觉语言领域，实现了多模态图像识别能力的新突破。该项目在GitHub上线后迅速获得广泛关注，登上热...

AI快讯

4个月前

开源项目VLM-R1将DeepSeek的R1方法从纯文本领域成功迁移到视觉语言领域，实现了多模态图像识别能力的新突破。该项目在GitHub上线后迅速获得广泛关注，登上热...

AI快讯

4个月前

本文探讨了LeapVAD技术在自动驾驶领域的创新应用，该技术结合大语言模型和视觉语言模型，通过认知感知和Dual-Process思维，实现了更高效的驾驶决策和环境表征...

AI快讯

4个月前

Figure公司推出的Helix系统结合了7B参数量的视觉语言模型S2和80M参数量的动作模型S1，旨在实现人形机器人的通用智能。然而，该系统面临硬件约束、数据训练与...

AI快讯

4个月前

杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域，开发了VLM-R1项目。该项目采用GRPO技术，展示了卓越的推理能力，并在GitHub上获得广泛关注。

AI快讯

4个月前