基于价值的深度强化学习:可预测的扩展论文 – 强化学习资源扩展的可预测性研究
该研究探讨了数据和计算资源扩展对基于价值的深度强化学习(RL)方法的影响,强调了可预测性的重要性。研究表明,这些方法不仅在增加计算或数据时表现良好,其性能还可以通过小型实验预测,而无需进行大规模实验。论文特别指出,数据和计算需求受 Updates-to-Data (UTD) 比率控制,形成了可预测的帕累托前沿。通过估计这一前沿,可以预测在给定更多计算资源时的数据需求,或在给定更多数据时的计算需求。此外,研究确定了在给定性能下总资源预算在数据和计算之间的最佳分配,并优化了最大化性能的超参数。