AlphaMaze-v0.2-1.5B 是由 Jan team 开发的模型,专门用于解谜迷宫。该模型通过 SFT 微调和 GRPO 技术,使其具备了空间推理能力,尽管它是从 DeepSeek-R1 蒸馏出来的小模型。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型