所有AI工具AI学习网站AI开发框架

改进Transformer世界模型以实现数据高效强化学习论文 – 提升强化学习数据效率

该项目通过改进Transformer世界模型(TWM),显著提高了数据效率,特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平,奖励达到67.4%。该...

标签:

Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26

AI交流(进群备注:)

该项目通过改进Transformer世界模型(TWM),显著提高了数据效率,特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平,奖励达到67.4%。该方法结合了Dyna与预热、图像块最近邻分词器(NNT)和块教师强制(BTF)等技术,不仅提高了奖励,还大幅减少了训练时间。

改进Transformer世界模型以实现数据高效强化学习的特点:

  • 1. 每集过程生成随机环境
  • 2. 部分可观察性:63×63像素图像加上库存视图
  • 3. 通过成就层次结构提供稀疏奖励,需要深度探索
  • 4. 使用JAX实现
  • 5. 构建了使用CNN和RNN的最新模型无强化学习(MFRL)基准
  • 6. 通过Dyna与预热、NNT和BTF增强MBRL

改进Transformer世界模型以实现数据高效强化学习的功能:

  • 1. 在100万环境步骤后评估,参数包括48个环境,T_env=96,T_WM=20
  • 2. 使用近端策略优化(PPO),超参数包括γ=0.925,λ=0.625,ε裁剪=0.2
  • 3. 缓冲区大小128k,预热范围M=5
  • 4. MFRL在单A100 GPU上15分钟内训练完成,MBRL在8 H100 GPU上需759分钟

相关导航

暂无评论

暂无评论...