标签:GRPO

从文本到视觉:VLM-R1如何通过GRPO革新多模态AI训练

杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域,开发了开源项目VLM-R1。该项目采用Group Relative Policy Optimization (GRPO)算法,实现...

从PPO到GRPO:RL与LLM的融合与创新

本文深入探讨了强化学习(RL)与大语言模型(LLM)的融合创新,特别是从PPO到GRPO的技术演进。文章分析了DeepSeek的开源策略及其在性能与成本上的优势,并探...

探索RLHF新方法:从迷宫导航到多语言优化

本文探讨了在AI研究中,针对新的RLHF/RLAIF pipeline的研究方法,包括提出新的RL算法、数据收集方法和奖励训练算法,并与PPO、DPO、KTO等算法在不同数据上的...

DeepSeek模型与GRPO:低成本高效AI的未来

DeepSeek模型以其开源和低成本特性席卷AI领域,特别是其创新的GRPO算法为强化学习提供了新思路。本文将探讨DeepSeek如何通过GRPO等技术实现高效推理,并分析...

GRPO技术革新:从DeepSeek-R1到VLM-R1的视觉语言模型迁移

杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域,开发了VLM-R1项目。该项目采用GRPO技术,展示了卓越的推理能力,并在GitHub上获得广泛关注。