标签:视觉语言模型
VLM模型革命:从Helix到GO-1,具身智能的新纪元
本文探讨了VLM模型在具身智能领域的最新进展,重点分析了Figure的Helix和智元机器人的GO-1大模型。Helix通过双系统协同实现了高频率连续控制,而GO-1则通过Vi...
XNet:自动驾驶技术的神经网络革命
本文深入探讨了XNet神经网络在自动驾驶技术中的应用,特别是其在感知、规划和控制模块中的革命性作用。文章还分析了小鹏汽车和特斯拉在智能驾驶领域的竞争,...
从文本到视觉:VLM-R1如何通过GRPO革新多模态AI训练
杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域,开发了开源项目VLM-R1。该项目采用Group Relative Policy Optimization (GRPO)算法,实现...
突破视觉语言模型瓶颈:多模态表示学习框架的革新
随着大规模预训练视觉语言模型(VLMs)的普及,如何在有限数据下优化模型性能成为关键挑战。本文探讨了一种创新的多模态表示学习(MMRL)框架,通过共享、可...
WebLI-100B:千亿级视觉语言数据集开启AI多模态新纪元
谷歌DeepMind团队发布史上最大规模的千亿级视觉语言数据集WebLI-100B,包含1,000亿对图像-文本数据。该数据集验证了数据规模对模型性能的重要性,尤其在文化...
Janus-Pro多模态大模型:深度解析与未来展望
Janus-Pro是DeepSeek公司开源的多模态大模型,主打AI图像生成与识别,支持文生图、图生文等多模态交互。本文深度解析Janus-Pro的技术特性、应用场景及安全性...
GPT-4与多模态AI的融合:从Transformer架构到沉浸式应用
本文探讨了GPT-4在多模态AI领域的应用,结合Transformer架构的演变,深入分析了MImIC框架和自蒸馏框架在视觉语言模型中的创新。文章还展示了AIRFurn等沉浸式...
阿里通义开源模型Qwen2.5引领全球大模型创新浪潮
阿里通义开源模型Qwen2.5在全球大模型盲测中表现卓越,Qwen2.5-72B-Instruct和Qwen2-VL-72B-Instruct分别位列LLM和Vision榜单前十。开源社区基于Qwen系列的衍...
DeepSeek VL:多模态理解与生成的革新者
DeepSeek VL 是 DeepSeek 推出的多模态视觉语言模型,以其高效处理高分辨率图像和强大的多模态理解能力著称。在与 GPT-4V 等模型的对比评测中,DeepSeek VL ...
概念瓶颈模型(CBM)在多模态AI安全中的应用与创新
淘天集团未来生活实验室团队与南京大学、重庆大学、港中文MMLab合作,提出了一种基于概念瓶颈模型(CBM)的视觉语言模型安全对齐方法PSA-VLM。该方法通过引入...