预算强制策略

s1是一个通过精心挑选的微调样本进行训练的AI模型，使用不到50美元的训练成本。训练过程中，选择了1000个问题，并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明，使用1K样本进行监督微调（SFT）在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后，使用预算强制策略来控制模型测试时的计算量，通过强制终止或延长模型的思考过程来优化生成结果。

Transformers库vLLM推理低成本AI模型监督微调

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。