PPO算法

改进Transformer世界模型以实现数据高效强化学习论文 – 提升强化学习数据效率

该项目通过改进Transformer世界模型（TWM），显著提高了数据效率，特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平，奖励达到67.4%。该方法结合了Dyna与预热、图像块最近邻分词器（NNT）和块教师强制（BTF）等技术，不仅提高了奖励，还大幅减少了训练时间。

JAX实现PPO算法Transformer世界模型强化学习

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。