s1是一个基于小型高质量数据集s1K和'预算强制'方法训练的高性能推理模型,旨在通过简单测试时间扩展技术与大型模型竞争。项目强调数据质量优于数量,仅用1,000个样本微调Qwen2.5-32B-Instruct模型,训练成本低至6美元。在竞赛数学问题(如MATH和AIME24)上表现优异,超越OpenAI o1-preview达27%。核心创新是测试时动态控制模型计算努力的'预算强制'技术,通过延长或缩短推理过程提升准确性。