该项目旨在通过强化学习训练大型语言模型(LLM),使其在推理任务中更高效。研究在奖励函数中引入长度惩罚,鼓励模型减少token使用,同时保持准确性,从而降低推理成本。通过参数α控制效率与准确性之间的权衡,提供了灵活的调整空间。项目不仅提供了理论支持,还开源了代码和数据,方便进一步开发和应用。