AlphaMaze-v0.2-1.5B 是由 Jan team 开发的模型,专门用于解谜迷宫。该模型通过 SFT 微调和 GRPO 技术,使其具备了空间推理能力,尽管它是从 DeepSeek-R1 蒸馏出来的小模型。