KodCode 是一个开源项目,专注于生成多样化、可验证的编程题目和解决方案的合成数据集,旨在帮助开发者提升编程能力并支持大型语言模型(LLM)的训练。项目涵盖12个不同领域的子集,从基础练习到面试挑战,提供自验证测试框架,支持Pytest和并行执行,并支持多种代码风格转换。数据集规模达447K验证三元组,适用于监督微调(SFT)和强化学习(RL)训练,模型在多个编码基准测试中表现优异。