改进Transformer世界模型以实现数据高效强化学习论文 – 提升强化学习数据效率

该项目通过改进Transformer世界模型（TWM），显著提高了数据效率，特别是在复杂开放世界环境中的表现。研究首次在Craftax-classic基准测试中超越人类专家水平，奖励达到67.4%。该方法结合了Dyna与预热、图像块最近邻分词器（NNT）和块教师强制（BTF）等技术，不仅提高了奖励，还大幅减少了训练时间。

改进Transformer世界模型以实现数据高效强化学习的特点:

1. 每集过程生成随机环境
2. 部分可观察性：63×63像素图像加上库存视图
3. 通过成就层次结构提供稀疏奖励，需要深度探索
4. 使用JAX实现
5. 构建了使用CNN和RNN的最新模型无强化学习（MFRL）基准
6. 通过Dyna与预热、NNT和BTF增强MBRL

改进Transformer世界模型以实现数据高效强化学习的功能:

1. 在100万环境步骤后评估，参数包括48个环境，T_env=96，T_WM=20
2. 使用近端策略优化（PPO），超参数包括γ=0.925，λ=0.625，ε裁剪=0.2
3. 缓冲区大小128k，预热范围M=5
4. MFRL在单A100 GPU上15分钟内训练完成，MBRL在8 H100 GPU上需759分钟

相关导航

RL-VLM-F开源项目 – 视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

eqnn-jax开源项目 – 等变图神经网络库

基于Jax实现的等变图神经网络库，为复杂结构数据建模提供强大的工具。

LeRobot开源项目 – 简化机器人技术的训练与应用

LeRobot 是一个端到端的训练框架，专注于真实世界的机器人技术，通过 PyTorch 提供模型、数据集和工具，旨在降低机器人技术的准入门槛，使研究者和开发者能够更轻松地开发和测试机器人应用。

deductive-reasoning开源项目 – 高效训练演绎推理模型

deductive-reasoning 是一种通过强化学习训练高级演绎推理模型的方法。该方法利用开源权重的语言模型，使其能够执行复杂的逻辑推理任务，并且在成本效率上具有显著优势。仅需16个训练样本即可实现显著性能提升，训练成本低，性价比高。

iRe-VLA Framework论文 – 提升机器人控制任务的VLA模型

iRe-VLA Framework 是一个通过在线强化学习（RL）和监督学习（SL）迭代来提升视觉-语言-行动模型（VLA）在机器人控制任务中性能和泛化能力的框架。它兼顾了训练稳定性和计算效率，在多个模拟和真实世界基准测试中表现优异，如MetaWorld、FrankaKitchen和真实世界Panda操作任务。

Figure AI官网 – 具身大模型的创新应用

Figure AI刚刚重磅发布其端到端具身大模型HELIX，旨在推动具身智能的发展。该模型通过融合世界模型的视频预训练和结合强化学习的后期训练，提供了多个功能以支持各类智能任务。

katakomba开源项目 – 数据驱动的NetHack基准测试工具

katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具，提供超过30个标准化数据集，并支持多种基于循环的离线强化学习基线模型，旨在促进研究和开发中的基准测试。

Awesome Reinforcement Learning for Cyber Security开源项目 – 强化学习在网络安全中的应用资源汇总

这是一个专注于应用于网络安全的强化学习资源的精心整理列表，包含研究论文、实用实现和相关工具，旨在帮助研究人员和开发者在这一领域获得最新的信息和技术支持。

Lorax开源项目 – 用于高效微调大型语言模型的工具

Lorax 是一个基于 JAX 实现的低秩适应（LoRA）工具，旨在帮助研究人员和开发者高效微调大型语言模型。它利用低秩矩阵的方式，减少了微调过程中需要调整的参数数量，提升了计算效率，同时保持了模型性能。Lorax 易于集成，适合快速实验与原型开发，特别是在处理大型预训练模型时表现出色。

MuJoCo开源项目 – 高性能物理引擎，助力多领域开发

MuJoCo是一个高性能物理引擎，专注于机器人、生物学、图形动画和机器学习等领域，旨在帮助开发者提升产品开发体验。它提供了高效的物理模拟和丰富的API，支持多种机器人和生物体模型，适合进行各种复杂的物理仿真任务。

GenRL开源项目 – 多模态基础世界模型

GenRL是一个多模态基础世界模型，旨在为通用具身智能体提供支持。它能够将语言和视频提示嵌入到具身领域，通过解码模型的潜在状态序列来可视化预期行为，进而训练智能体执行任务。该项目适用于强化学习和多模态任务的研究，是开发具身智能体的基础模型。

LlamaGym开源项目 – 知识增强规划系统

知识增强规划系统，旨在为基于LLM的智能Agent提供支持，通过创建广泛的行动知识库，将特定任务相关的行动规划知识整合起来，并将这些知识转化为文本，使模型能够深入理解和利用这些知识来生成行动轨迹。

rs开源项目 – 基于JAX的随机搜索算法

rs是一个基于JAX的随机搜索实现，专为运动任务设计，能够高效地利用MuJoCo XLA (MJX)进行训练，支持多种运动环境，便于研究和实验。

Adaptive官网 – 提升企业AI能力的先进工具

Adaptive是一个先进的AI工具，旨在改变企业利用大型语言模型（LLMs）的方式。它提供了一整套工具，通过强化学习技术对开放模型进行微调和部署，增强其性能，确保满足特定的业务需求，同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。

Text2Graph-R1模型 – 开源文本转图结构提取工具

Text2Graph-R1 是一个开源项目，旨在复制 DeepSeek R1 的文本到图结构的提取训练方案。该项目基于 GRPO（Guided Reward Policy Optimization）强化学习技术，通过多阶段训练流程（包括数据生成、监督训练和强化学习）优化模型从非结构化文本中提取结构化信息的能力。项目特别强调通过多种奖励机制（如格式奖励、JSON有效性奖励和F1奖励）提升输出质量，并支持零样本图结构提取任务。

暂无评论

暂无评论...