iRe-VLA Framework论文 – 提升机器人控制任务的VLA模型

iRe-VLA Framework 是一个通过在线强化学习（RL）和监督学习（SL）迭代来提升视觉-语言-行动模型（VLA）在机器人控制任务中性能和泛化能力的框架。它兼顾了训练稳定性和计算效率，在多个模拟和真实世界基准测试中表现优异，如MetaWorld、FrankaKitchen和真实世界Panda操作任务。

iRe-VLA Framework的特点:

1. 交替使用强化学习（RL）和监督学习（SL）以平衡探索和稳定性
2. 在RL阶段冻结视觉-语言模型（VLM）以降低计算负载
3. 收集RL成功的轨迹用于后续SL阶段，防止遗忘并提高泛化能力
4. 显著提升VLA模型在已见和未见任务中的表现
5. 处理复杂的机器人操作任务，成功率显著提高

iRe-VLA Framework的功能:

1. 适合机器人和AI领域的研发人员，通过交互式学习改进VLA模型
2. 需要预训练的VLM（如BLIP-2 3B）和专家数据集
3. 适用于模拟和真实世界的机器人操作任务
4. 在本地机器上运行RL阶段，在远程服务器上运行SL阶段以管理计算负载

相关导航

s2protocol-rs开源项目 – 星际争霸2回放解析工具

s2protocol-rs 是一个基于 Rust 语言和 nom 解析库的星际争霸2回放文件解析工具。它能够高效地解析星际争霸2的回放文件，并提取详细的游戏事件和数据。该项目支持最新的星际争霸2协议版本，具有高性能和低内存占用的特点，适用于各种回放文件的分析和研究。

katakomba开源项目 – 数据驱动的NetHack基准测试工具

katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具，提供超过30个标准化数据集，并支持多种基于循环的离线强化学习基线模型，旨在促进研究和开发中的基准测试。

Reference implementation of a two-level RCN model开源项目 – 双层RCN模型的参考实现

这是一个双层递归卷积网络模型的参考实现，旨在提供灵活的应用支持和优化的性能。

critic-rl开源项目 – 通过强化学习提升语言模型表现

critic-rl是一个通过强化学习教语言模型学会批判的项目，旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现，并具有模型无关性，适用于多种模型和任务。

CivRealm开源项目 – 学习和推理环境的决策智能体

CivRealm是一个基于开源游戏Freeciv-web的学习和推理环境，提供了基于强化学习和语言模型的决策智能体接口，以及训练和评估工具和基线模型，旨在成为复杂环境中学习和推理代理的测试平台。

Carve3D开源项目 – 提升扩散模型的多视图重建一致性

Carve3D项目旨在通过强化学习微调，提高扩散模型在多视图重建中的一致性，适用于3D模型生成和场景视觉一致性的改善。

JAX开源项目 – Google开发的数值计算库

JAX是由Google开发的开源数值计算库，专为研究者和开发者设计，结合了数值计算和机器学习。它支持自动微分与硬件加速，在Transformer模型训练中性能较PyTorch提升30%，广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图，支持并行计算和动态控制流，使代码既高效又灵活。

Text2Graph-R1模型 – 开源文本转图结构提取工具

Text2Graph-R1 是一个开源项目，旨在复制 DeepSeek R1 的文本到图结构的提取训练方案。该项目基于 GRPO（Guided Reward Policy Optimization）强化学习技术，通过多阶段训练流程（包括数据生成、监督训练和强化学习）优化模型从非结构化文本中提取结构化信息的能力。项目特别强调通过多种奖励机制（如格式奖励、JSON有效性奖励和F1奖励）提升输出质量，并支持零样本图结构提取任务。

rs开源项目 – 基于JAX的随机搜索算法

rs是一个基于JAX的随机搜索实现，专为运动任务设计，能够高效地利用MuJoCo XLA (MJX)进行训练，支持多种运动环境，便于研究和实验。

H2O (Human2HumanOid)官网 – 基于强化学习的人机远程操作框架

H2O是一个基于强化学习的human-to-humanoid实时全身远程操作框架，旨在通过使用大型人体运动数据集进行可扩展的重定向和训练，使得用户只需一个RGB摄像头即可操作全尺寸的人形机器人，从而释放类人机器人的认知技能和适应性潜力。

Vision-R1开源项目 – 强化学习提升多模态推理

Vision-R1是首个探索如何有效利用强化学习（RL）提升多模态大语言模型（MLLM）推理能力的项目。通过冷启动初始化和RL训练，该项目显著提升了模型的推理能力，并仅用7B参数实现了与70B+参数模型相当的性能。此外，Vision-R1还提供了完整的推理流程和代码，助力研究者快速上手。

LlamaGym开源项目 – 知识增强规划系统

知识增强规划系统，旨在为基于LLM的智能Agent提供支持，通过创建广泛的行动知识库，将特定任务相关的行动规划知识整合起来，并将这些知识转化为文本，使模型能够深入理解和利用这些知识来生成行动轨迹。

flybody开源项目 – 果蝇模型的物理模拟与学习平台

flybody是一个用于MuJoCo物理模拟和强化学习应用的果蝇模型，基于Google DeepMind和HHMI Janelia研究中心的相结合的作品，旨在建立果蝇体系生物物理模拟平台。

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

Cornell CS5785 Applied ML开源项目 – 康奈尔大学的机器学习应用课程

康奈尔大学的Applied Machine Learning课程的执行课程笔记和幻灯片（2024年秋季版），讲授机器学习、数据挖掘和信号处理中的关键概念。

暂无评论

暂无评论...