标签:RL训练方法

阶跃星辰开源大模型技术:Open Reasoner Zero引领AI新潮流

阶跃星辰与清华大学联合发布Open Reasoner Zero (ORZ)模型,该模型在响应长度上仅需约17%的训练步骤即可赶上DeepSeek-R1-Zero 671B。DeepSeek开源了推理模型...

突破性进展:OpenReasonerZero革新RL训练方法,效率提升30倍

阶跃星辰与清华大学联合发布的OpenReasonerZero模型,通过创新的RL训练方法,仅需1/30的训练步骤即可达到与DeepSeek-R1-Zero相同尺寸的蒸馏Qwen模型的性能。...