该项目通过改进Transformer世界模型(TWM),显著提高了数据效率,特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平,奖励达到67.4%。该方法结合了Dyna与预热、图像块最近邻分词器(NNT)和块教师强制(BTF)等技术,不仅提高了奖励,还大幅减少了训练时间。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型