Transformer 世界模型的突破：数据效率与复杂决策的新高度

0 0

Transformer 世界模型的革新

Transformer 世界模型（TWM）在近年来取得了显著的进展，尤其是在数据效率和复杂决策方面。最近的研究通过引入一系列创新技术，使得 TWM 在 Craftax-classic 这一复杂的开放世界 2D 生存游戏中，首次超越了人类专家的表现。

创新技术的引入

研究团队提出了三种关键的技术改进，显著提升了 TWM 的性能：

Dyna with Warmup：这一技术通过在真实数据和想象数据上训练策略，提高了模型的样本效率。
Nearest Neighbor Tokenizer：通过对图像块进行最近邻标记化处理，改进了 TWM 输入的生成方案。
Block Teacher Forcing：允许 TWM 联合推理未来时间步的标记，增强了模型的长期推理能力。

Craftax-classic 环境中的突破

在 Craftax-classic 这一复杂环境中，经过优化的 TWM 在仅进行 100 万次环境步骤后，就取得了 67.4% 的奖励，显著超过了 DreamerV3 的 53.2%，并首次超越了人类专家的 65.0%。这一成果不仅展示了 TWM 在数据效率方面的优势，也证明了 MBRL 方法在解决复杂决策问题上的巨大潜力。