CFT(Critique Fine-Tuning)是一种创新的语言模型微调策略,通过训练模型批判有噪声的回复来提升其推理能力。相比传统监督微调(SFT),CFT在数学推理任务上表现更优,且数据效率更高。研究表明,CFT只需较少训练数据即可达到或超过SFT的性能,尤其在数学相关任务中表现优异。CFT的训练方法强调批判性思维,促进更深层次的分析和理解,适用于资源有限或数据不足的环境。