critic-rl是一个通过强化学习教语言模型学会批判的项目,旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现,并具有模型无关性,适用于多种模型和任务。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型