AI交流(进群备注:DeepScaleR-1.5B)

DeepScaleR-1.5B是一个基于DeepSeek-R1论文,使用GRPO持续训练的1.5B参数模型。其数学水平达到了与OpenAI-o1-preview相当的水平。由于模型较小且仅在专一领域训练,其他方面表现不佳。该项目主要用于数学相关任务,并作为小型模型的参考案例,同时研究GRPO训练方法的效果。
DeepScaleR-1.5B的特点:
- 1. 数学水平达到OpenAI-o1-preview相当
- 2. 仅1.5B参数的小型模型
- 3. 使用GRPO持续训练
- 4. 专注于单一领域训练
DeepScaleR-1.5B的功能:
- 1. 用于数学相关任务
- 2. 作为小型模型的参考案例
- 3. 研究GRPO训练方法的效果
相关导航
暂无评论...