STP: Self-play Theorem Prover开源 – 自对弈提升LLM定理证明能力
STP是斯坦福大学开发的科研项目,通过自对弈机制增强大型语言模型(LLM)在形式化定理证明中的能力。项目创新性地让模型同时扮演猜想者和证明者角色,迭代生成并验证新猜想,解决了传统方法中高质量训练数据稀缺的问题。支持Lean/Isabelle验证器,在miniF2F-test(65.0%通过率)和LeanWorkbook(28.5%通过率)等基准测试中显著超越先前方法。提供完整模型、数据集和训练代码,基于levanter/DeepSeek-Prover-V1.5/LeanDojo等库构建。