Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

该项目通过改进Transformer世界模型(TWM),显著提高了数据效率,特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平,奖励达到67.4%。该方法结合了Dyna与预热、图像块最近邻分词器(NNT)和块教师强制(BTF)等技术,不仅提高了奖励,还大幅减少了训练时间。
改进Transformer世界模型以实现数据高效强化学习的特点:
- 1. 每集过程生成随机环境
- 2. 部分可观察性:63×63像素图像加上库存视图
- 3. 通过成就层次结构提供稀疏奖励,需要深度探索
- 4. 使用JAX实现
- 5. 构建了使用CNN和RNN的最新模型无强化学习(MFRL)基准
- 6. 通过Dyna与预热、NNT和BTF增强MBRL
改进Transformer世界模型以实现数据高效强化学习的功能:
- 1. 在100万环境步骤后评估,参数包括48个环境,T_env=96,T_WM=20
- 2. 使用近端策略优化(PPO),超参数包括γ=0.925,λ=0.625,ε裁剪=0.2
- 3. 缓冲区大小128k,预热范围M=5
- 4. MFRL在单A100 GPU上15分钟内训练完成,MBRL在8 H100 GPU上需759分钟
相关导航
暂无评论...