s1是一个通过精心挑选的微调样本进行训练的AI模型,使用不到50美元的训练成本。训练过程中,选择了1000个问题,并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明,使用1K样本进行监督微调(SFT)在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后,使用预算强制策略来控制模型测试时的计算量,通过强制终止或延长模型的思考过程来优化生成结果。