DeepScaleR-1.5B是一个基于DeepSeek-R1论文,使用GRPO持续训练的1.5B参数模型。其数学水平达到了与OpenAI-o1-preview相当的水平。由于模型较小且仅在专一领域训练,其他方面表现不佳。该项目主要用于数学相关任务,并作为小型模型的参考案例,同时研究GRPO训练方法的效果。