2025年最强大的10个强化学习AI工具推荐 | 第 2 页

critic-rl开源项目 – 通过强化学习提升语言模型表现

critic-rl是一个通过强化学习教语言模型学会批判的项目，旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现，并具有模型无关性，适用于多种模型和任务。

0

代码生成强化学习生成式奖励模型自我提升

Self-rewarding-reasoning-LLM开源项目 – 自我奖励推理的语言模型

该项目旨在训练一种能够自我奖励推理的大型语言模型，使模型在推理过程中能够自主评估输出的正确性，而无需依赖外部反馈。通过结合强化学习技术，模型能够显著提升推理能力和自我修正能力，最终准确率提升最高可达14.2%。

0

强化学习数学推理自我修正能力自我奖励推理的语言模型

Awesome-RL-based-LLM-Reasoning开源项目 – 强化学习提升大模型推理能力

这是一个专注于通过强化学习（RL）提升大语言模型（LLM）推理能力的资源库。它旨在帮助研究人员和开发者快速掌握RL与LLM结合的最新进展，并提供解决如何通过RL提升LLM推理能力的实用资源。资源库汇集了最新的相关论文、幻灯片和开源项目，涵盖多种RL方法和LLM推理优化技巧，同时提供丰富的学习资源和实践案例，助力学习者和实践者深入理解并应用RL与LLM的结合。

0

大语言模型学习资源开源项目强化学习

GenRL开源项目 – 多模态基础世界模型

GenRL是一个多模态基础世界模型，旨在为通用具身智能体提供支持。它能够将语言和视频提示嵌入到具身领域，通过解码模型的潜在状态序列来可视化预期行为，进而训练智能体执行任务。该项目适用于强化学习和多模态任务的研究，是开发具身智能体的基础模型。

0

任务执行具身智能体多模态基础世界模型强化学习

hl-gauss-pytorch开源项目 – 基于PyTorch的高斯直方图损失函数

hl-gauss-pytorch是一个基于PyTorch实现的高斯直方图损失函数（HL-Gauss），为回归任务提供了全新的视角，能够有效提升模型的性能。

0

PyTorch回归任务强化学习模型性能提升

Figure AI官网 – 具身大模型的创新应用

Figure AI刚刚重磅发布其端到端具身大模型HELIX，旨在推动具身智能的发展。该模型通过融合世界模型的视频预训练和结合强化学习的后期训练，提供了多个功能以支持各类智能任务。

0

具身智能强化学习端到端大模型视频预训练

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

0

Deepseek R1GRPO算法从零构建推理模型开源项目

DeepSeek R1官网 – 生成式AI领域的重要模型

本报告讨论了DeepSeek R1模型，以及它的发布对生成式人工智能领域的更广泛意义。

0

AI技术进步DeepSeek R1模型强化学习混合专家

Alpha NL Holdem开源项目 – 自弈德州扑克AI，助力强化学习

一款基于TensorFlow和Ray实现的自弈德州扑克AI，提供清晰的代码基础，用于在德州扑克类游戏中应用无模型自对弈强化学习方法，旨在复现AlphaHoldem的结果。

0

AlphaHoldem复现RayTensorFlow强化学习

HOVER开源项目 – 为机器人提供灵活的运动控制解决方案

HOVER为机器人运动控制提供高效、灵活的神经网络解决方案，基于强化学习技术，能够实现复杂动作的精准控制，支持多种机器人模型，适配性强，并提供详细的训练和测试流程，易于上手。

0

开源项目强化学习机器人运动控制运动控制解决方案

Probabilistic Artificial Intelligence – 一本关于概率AI的教材

一本关于概率人工智能的教材，涵盖机器学习的概率方法和在顺序决策任务中考虑不确定性的方法。该书详细讨论了概率模型和算法，适合研究人员和学生使用。

0

强化学习数据科学参考书机器学习概率方法概率人工智能教材

JAX开源项目 – Google开发的数值计算库

JAX是由Google开发的开源数值计算库，专为研究者和开发者设计，结合了数值计算和机器学习。它支持自动微分与硬件加速，在Transformer模型训练中性能较PyTorch提升30%，广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图，支持并行计算和动态控制流，使代码既高效又灵活。

0

AlphaFoldGoogleJAXTransformer模型

DeepScaleR开源项目 – 让强化学习平民化

DeepScaleR旨在为大语言模型（LLMs）提供强大的性能提升，仅用1.5B参数就超越了7B参数模型的性能。该项目完全开源，包括训练脚本、模型、数据集和日志，特别适用于参与AIME 2024竞赛的模型。

0

AIME 2024竞赛大语言模型开源项目强化学习

Reasoning Gym开源项目 – 用于训练推理模型的Python库

Reasoning Gym是一个用于训练推理模型的Python库，能够生成无限多的推理任务，旨在通过强化学习提升模型的逻辑和算法推理能力。该项目支持多种推理数据集，易于集成和扩展，以满足研究和开发的需求。

0

强化学习推理任务生成推理模型训练库数据集支持

TinyZero开源项目 – 重现大型语言模型自我进化

TinyZero是一个以不到30美元的成本，利用veRL强化学习训练框架，在qwen2.5模型基础上进行训练的项目，能够复现DeepSeek R1论文中的'Aha moment'，并提供完整实验日志和开源代码，方便复现和学习。

0

DeepSeek R1复现TinyZero大型语言模型开源项目

Adaptive官网 – 提升企业AI能力的先进工具

Adaptive是一个先进的AI工具，旨在改变企业利用大型语言模型（LLMs）的方式。它提供了一整套工具，通过强化学习技术对开放模型进行微调和部署，增强其性能，确保满足特定的业务需求，同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。

0

AI工具企业AI能力提升强化学习数据隐私保护

simpleRL-reason开源项目 – 高效强化学习推理训练

一个强化学习项目，旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程，使得AI推理训练更加高效，且小模型也能表现出强大的推理能力。

0

AI推理训练小数据集训练强化学习性能比较

Awesome Reinforcement Learning for Cyber Security开源项目 – 强化学习在网络安全中的应用资源汇总

这是一个专注于应用于网络安全的强化学习资源的精心整理列表，包含研究论文、实用实现和相关工具，旨在帮助研究人员和开发者在这一领域获得最新的信息和技术支持。

0

代码库实用实现工具和框架强化学习