AI交流(进群备注:critic-rl)

critic-rl是一个通过强化学习教语言模型学会批判的项目,旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现,并具有模型无关性,适用于多种模型和任务。
critic-rl的特点:
- 1. 测试时性能提升显著,Qwen2.5-Coder-32B-Ins在CodeContests任务中通过多轮批判-修订实现106.1%的相对提升
- 2. 模型无关性,适用于多种模型(如GPT-4o)和任务(如CodeContests、LiveCodeBench、MBPP+)
- 3. 作为生成式奖励模型,准确率达64.3%,与更强模型媲美
critic-rl的功能:
- 1. 用于提升语言模型在代码生成任务中的表现
- 2. 适用于多种AI模型的自我提升
- 3. 作为生成式奖励模型,用于评估和优化模型输出
相关导航
暂无评论...