Qwen_0.5b__GRPO模型 – 数学推理强化学习模型
Qwen_0.5b__GRPO是基于阿里巴巴云Qwen-0.5b轻量级语言模型的数学推理专项优化项目,采用强化学习算法GRPO(Group Relative Policy Optimization)进行训练。
该项目针对gsm8k数学数据集优化,支持vllm加速推理,显著提升数学问题解决的准确率和训练效率。作为仅494M参数的小规模模型,它能在资源受限环境中高效运行,
特别适合生成数学问题的分步推理过程和最终答案,是教育及研究场景的理想轻量化工具。