CodeDPO 是由北京大学李戈教授团队与字节跳动合作提出的代码生成优化框架,通过整合偏好学习和自验证机制,显著提升代码的准确性和执行效率。该项目在多个基准测试(如 HumanEval、MBPP 等)上表现优异,尤其在提升代码准确性和执行效率方面有显著进步。