视觉语言模型

VLM模型革命：从Helix到GO-1，具身智能的新纪元

本文探讨了VLM模型在具身智能领域的最新进展，重点分析了Figure的Helix和智元机器人的GO-1大模型。Helix通过双系统协同实现了高频率连续控制，而GO-1则通过Vi...

AI快讯

3个月前

本文深入探讨了XNet神经网络在自动驾驶技术中的应用，特别是其在感知、规划和控制模块中的革命性作用。文章还分析了小鹏汽车和特斯拉在智能驾驶领域的竞争，...

AI快讯

3个月前

杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域，开发了开源项目VLM-R1。该项目采用Group Relative Policy Optimization (GRPO)算法，实现...

AI快讯

3个月前

随着大规模预训练视觉语言模型（VLMs）的普及，如何在有限数据下优化模型性能成为关键挑战。本文探讨了一种创新的多模态表示学习（MMRL）框架，通过共享、可...

AI快讯

3个月前

谷歌DeepMind团队发布史上最大规模的千亿级视觉语言数据集WebLI-100B，包含1,000亿对图像-文本数据。该数据集验证了数据规模对模型性能的重要性，尤其在文化...

AI快讯

3个月前

Janus-Pro是DeepSeek公司开源的多模态大模型，主打AI图像生成与识别，支持文生图、图生文等多模态交互。本文深度解析Janus-Pro的技术特性、应用场景及安全性...

AI快讯

3个月前

本文探讨了GPT-4在多模态AI领域的应用，结合Transformer架构的演变，深入分析了MImIC框架和自蒸馏框架在视觉语言模型中的创新。文章还展示了AIRFurn等沉浸式...

AI快讯

3个月前

阿里通义开源模型Qwen2.5在全球大模型盲测中表现卓越，Qwen2.5-72B-Instruct和Qwen2-VL-72B-Instruct分别位列LLM和Vision榜单前十。开源社区基于Qwen系列的衍...

AI快讯

3个月前

DeepSeek VL 是 DeepSeek 推出的多模态视觉语言模型，以其高效处理高分辨率图像和强大的多模态理解能力著称。在与 GPT-4V 等模型的对比评测中，DeepSeek VL ...

AI快讯

3个月前

淘天集团未来生活实验室团队与南京大学、重庆大学、港中文MMLab合作，提出了一种基于概念瓶颈模型（CBM）的视觉语言模型安全对齐方法PSA-VLM。该方法通过引入...

AI快讯

3个月前