标签:惩罚规模

无尺度强化学习算法:突破传统限制,赋能金融与自动驾驶

波士顿大学团队提出了一种无尺度强化学习算法,解决了传统强化学习在奖励或惩罚规模受限时无法正常工作的问题。该算法通过借鉴无尺度在线学习的思路,实现了...