标签:OpenReasonerZero

突破性进展:OpenReasonerZero革新RL训练方法,效率提升30倍

阶跃星辰与清华大学联合发布的OpenReasonerZero模型,通过创新的RL训练方法,仅需1/30的训练步骤即可达到与DeepSeek-R1-Zero相同尺寸的蒸馏Qwen模型的性能。...

开源推理模型训练新突破:DeepSeek-R1-Zero的1/30训练步骤革命

国内技术团队通过OpenReasonerZero项目,成功将DeepSeek-R1-Zero的训练步骤减少至原来的1/30,显著提升了训练效率。这一突破不仅简化了强化学习的训练流程,...