该项目通过改进Transformer世界模型(TWM),显著提高了数据效率,特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平,奖励达到67.4%。该方法结合了Dyna与预热、图像块最近邻分词器(NNT)和块教师强制(BTF)等技术,不仅提高了奖励,还大幅减少了训练时间。