Code-R1通过可靠的奖励机制重现代码生成的R1流程,旨在提升代码生成的精准度和效率。该项目利用少量样本进行训练,性能超越大规模参数模型,并提供安全、可扩展的沙盒化执行环境,有效减少奖励误判,确保代码生成的高效性和安全性。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型