IBPO论文 – 优化大型语言模型推理效率的算法
IBPO(Inference Budget-Constrained Policy Optimization,推理预算约束策略优化)是一种新算法,旨在提高大型语言模型在数学问题上的推理效率。该算法通过将推理预算建模为带约束的效用最大化问题,使模型能够根据查询的难度自适应地分配推理预算,从而在保证甚至提升性能的同时降低推理成本。研究表明,IBPO在MATH500数据集上实现了显著改进,尤其是在2.16倍和4.32倍推理预算下,分别带来了4.14%和5.74%的绝对性能提升。