批判微调(Critique Fine-Tuning, CFT)官网 – 通过批评错误答案提升数学推理能力
批判微调(CFT)是一种创新的语言模型微调方法,通过训练模型批评错误答案而非单纯模仿正确答案,来提升数学推理能力。研究表明,CFT在数学基准测试中表现优于传统方法,并且具有更高的数据效率和更低的计算成本。CFT通过构建包含50K样本的WebInstruct数据集,使用GPT-4o生成批评数据,训练模型识别和批评噪声响应,从而增强深度分析和细致理解。该方法特别适用于需要逻辑一致性和深度分析的任务,如教育工具、科学分析和自动化问题解决系统。