critic-rl是一个通过强化学习教语言模型学会批判的项目,旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现,并具有模型无关性,适用于多种模型和任务。
该项目旨在训练一种能够自我奖励推理的大型语言模型,使模型在推理过程中能够自主评估输出的正确性,而无需依赖外部反馈。通过结合强化学习技术,模型能够显著提升推理能力和自我修正能力,最终准确率提升最高可达14.2%。
这是一个专注于通过强化学习(RL)提升大语言模型(LLM)推理能力的资源库。它旨在帮助研究人员和开发者快速掌握RL与LLM结合的最新进展,并提供解决如何通过RL提升LLM推理能力的实用资源。资源库汇集了最新的相关论文、幻灯片和开源项目,涵盖多种RL方法和LLM推理优化技巧,同时提供丰富的学习资源和实践案例,助力学习者和实践者深入理解并应用RL与LLM的结合。
GenRL是一个多模态基础世界模型,旨在为通用具身智能体提供支持。它能够将语言和视频提示嵌入到具身领域,通过解码模型的潜在状态序列来可视化预期行为,进而训练智能体执行任务。该项目适用于强化学习和多模态任务的研究,是开发具身智能体的基础模型。
hl-gauss-pytorch是一个基于PyTorch实现的高斯直方图损失函数(HL-Gauss),为回归任务提供了全新的视角,能够有效提升模型的性能。
Figure AI刚刚重磅发布其端到端具身大模型HELIX,旨在推动具身智能的发展。该模型通过融合世界模型的视频预训练和结合强化学习的后期训练,提供了多个功能以支持各类智能任务。
DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型,通过 GRPO 算法进行初步训练,并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法,显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图,使得即使是初学者也能轻松上手。
本报告讨论了DeepSeek R1模型,以及它的发布对生成式人工智能领域的更广泛意义。
一款基于TensorFlow和Ray实现的自弈德州扑克AI,提供清晰的代码基础,用于在德州扑克类游戏中应用无模型自对弈强化学习方法,旨在复现AlphaHoldem的结果。
HOVER为机器人运动控制提供高效、灵活的神经网络解决方案,基于强化学习技术,能够实现复杂动作的精准控制,支持多种机器人模型,适配性强,并提供详细的训练和测试流程,易于上手。
一本关于概率人工智能的教材,涵盖机器学习的概率方法和在顺序决策任务中考虑不确定性的方法。该书详细讨论了概率模型和算法,适合研究人员和学生使用。
JAX是由Google开发的开源数值计算库,专为研究者和开发者设计,结合了数值计算和机器学习。它支持自动微分与硬件加速,在Transformer模型训练中性能较PyTorch提升30%,广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图,支持并行计算和动态控制流,使代码既高效又灵活。
DeepScaleR旨在为大语言模型(LLMs)提供强大的性能提升,仅用1.5B参数就超越了7B参数模型的性能。该项目完全开源,包括训练脚本、模型、数据集和日志,特别适用于参与AIME 2024竞赛的模型。
Reasoning Gym是一个用于训练推理模型的Python库,能够生成无限多的推理任务,旨在通过强化学习提升模型的逻辑和算法推理能力。该项目支持多种推理数据集,易于集成和扩展,以满足研究和开发的需求。
TinyZero是一个以不到30美元的成本,利用veRL强化学习训练框架,在qwen2.5模型基础上进行训练的项目,能够复现DeepSeek R1论文中的'Aha moment',并提供完整实验日志和开源代码,方便复现和学习。
Adaptive是一个先进的AI工具,旨在改变企业利用大型语言模型(LLMs)的方式。它提供了一整套工具,通过强化学习技术对开放模型进行微调和部署,增强其性能,确保满足特定的业务需求,同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。
一个强化学习项目,旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程,使得AI推理训练更加高效,且小模型也能表现出强大的推理能力。
这是一个专注于应用于网络安全的强化学习资源的精心整理列表,包含研究论文、实用实现和相关工具,旨在帮助研究人员和开发者在这一领域获得最新的信息和技术支持。
H2O是一个基于强化学习的human-to-humanoid实时全身远程操作框架,旨在通过使用大型人体运动数据集进行可扩展的重定向和训练,使得用户只需一个RGB摄像头即可操作全尺寸的人形机器人,从而释放类人机器人的认知技能和适应性潜力。
该团队专注于金融领域的强化学习(RL)和大语言模型(LLM)的应用,提供数据收集和量化分析的工具和资源。
这台通过DeepMind深度强化学习训练的机器人只有20个驱动关节。而人类步行需要对大约360个关节600块肌肉进行实时控制。
flybody是一个用于MuJoCo物理模拟和强化学习应用的果蝇模型,基于Google DeepMind和HHMI Janelia研究中心的相结合的作品,旨在建立果蝇体系生物物理模拟平台。
一个专注于编程任务的O1模型复现项目,结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力,包含测试用例生成器(TCG)和自弈强化学习两大核心组件,旨在生成更高效和逻辑性强的代码
该项目专注于利用上下文感知分词来构建高效的世界模型,旨在提升智能体的学习与表现。
Carve3D项目旨在通过强化学习微调,提高扩散模型在多视图重建中的一致性,适用于3D模型生成和场景视觉一致性的改善。
RL-VLM-F是一个结合视觉和语言的强化学习项目,通过利用基础模型的反馈进行学习,旨在优化多模态任务中的决策过程。
这是一个双层递归卷积网络模型的参考实现,旨在提供灵活的应用支持和优化的性能。
Hora是一个在模拟器中训练强化学习策略,并将其直接部署到真实世界机械手的项目,完全不依赖视觉或触觉输入,旨在实现高效的机械手操作。
研究团队从学习搜索算法中得到启示,利用文本生成的关键特性,应用了强化学习和引导反馈。该算法在IMDB正面评论和文本生成任务上超越了默认的PPO基线,证实了与指导型语言大模型交互的优势。
RLAIF通过人工智能反馈扩展人类反馈的强化学习,表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型