Hora开源项目 – 在模拟器中训练RL策略并部署于机械手

Hora是一个在模拟器中训练强化学习策略，并将其直接部署到真实世界机械手的项目，完全不依赖视觉或触觉输入，旨在实现高效的机械手操作。
Hora的特点:
1. 在模拟器中使用手指转动各种物体
2. 将训练好的策略直接部署到真实机械手
3. 不依赖视觉或触觉输入进行操作

Hora的功能:
1. 在模拟器中进行训练
2. 将训练模型导出并部署到机械手
3. 测试和优化RL策略

相关导航

Adaptive官网 – 提升企业AI能力的先进工具

Adaptive是一个先进的AI工具，旨在改变企业利用大型语言模型（LLMs）的方式。它提供了一整套工具，通过强化学习技术对开放模型进行微调和部署，增强其性能，确保满足特定的业务需求，同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。

DeepPath开源项目 – 知识图谱推理的强化学习方法

DeepPath是一种利用强化学习进行知识图谱推理的方法，适用于大规模知识图谱中的高效路径查找。它结合了结构信息和语义信息，能够扩展到复杂且多样化的知识图谱，并提供可解释的推理路径。

Efficient World Models with Context-Aware Tokenization开源项目 – 高效世界模型与上下文感知分词

该项目专注于利用上下文感知分词来构建高效的世界模型，旨在提升智能体的学习与表现。

Carve3D开源项目 – 提升扩散模型的多视图重建一致性

Carve3D项目旨在通过强化学习微调，提高扩散模型在多视图重建中的一致性，适用于3D模型生成和场景视觉一致性的改善。

simpleRL-reason开源项目 – 高效强化学习推理训练

一个强化学习项目，旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程，使得AI推理训练更加高效，且小模型也能表现出强大的推理能力。

L1开源项目 – 用强化学习优化AI推理时间

L1 是一个利用强化学习技术来控制推理模型思考时间的项目，旨在提高AI推理的效率。通过动态调整推理时长，L1能够优化模型在不同任务中的表现，同时支持多种数据集和模型训练。项目还提供了预训练模型，方便用户快速集成到现有AI系统中。

Reasoning Gym开源项目 – 用于训练推理模型的Python库

Reasoning Gym是一个用于训练推理模型的Python库，能够生成无限多的推理任务，旨在通过强化学习提升模型的逻辑和算法推理能力。该项目支持多种推理数据集，易于集成和扩展，以满足研究和开发的需求。

LISA开源项目 – 学习可解释的技能抽象

LISA（Learning Interpretable Skill Abstractions）旨在通过强化学习任务来学习可解释的技能抽象，从而提高模型的可解释性。

解密LLM的长链思维推理开源 – 探索LLM长链推理机制的强化学习研究

该项目通过强化学习（RL）系统研究大型语言模型（LLM）中长链思维推理的涌现机制，重点分析奖励塑造和数据质量对推理能力的影响。研究发现：监督微调（SFT）可提升训练效率但非必需；推理能力随计算量增长可能涌现，但依赖奖励设计稳定思维链长度；利用噪声网络数据扩展可验证奖励信号在STEM任务中表现潜力；基础模型已具备错误纠正等核心能力，但需大量计算资源激发。项目挑战了"模型规模决定性能"的传统观点，强调奖励设计比参数量更关键。

ai-resources开源项目 – AI/ML学习资源精选

ai-resources 是一个由 Memo Akten 精心挑选的人工智能、机器学习、统计推断、深度学习和强化学习的学习资源集合。该项目涵盖了多个领域的学习材料，包括文章、教程和研究论文，并由一位经验丰富的 AI 从业者定期更新，确保资源的时效性和质量。

O1-CODER开源项目 – 专注编程任务的模型复现项目

一个专注于编程任务的O1模型复现项目，结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力，包含测试用例生成器(TCG)和自弈强化学习两大核心组件，旨在生成更高效和逻辑性强的代码

AI4Finance开源项目 – 金融领域的强化学习与大语言模型应用

该团队专注于金融领域的强化学习（RL）和大语言模型（LLM）的应用，提供数据收集和量化分析的工具和资源。

Diamond Env开源项目 – Minecraft强化学习标准化环境

Diamond Env是一个为强化学习设计的标准化环境，基于Minecraft中的Diamond任务。它提供了一致的实验条件，支持多种强化学习算法，并允许用户自定义任务和奖励机制。该环境适用于研究Minecraft中的智能体行为，并可作为基准环境进行性能评估。

SimPO开源项目 – 一种新的序列生成任务处理方法

SimPO 通过将强化学习转变为有监督的成对损失，提供了一种新的方法来处理序列生成任务。

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs论文 – 语言模型自我提升的四种关键认知行为

该研究论文探讨了语言模型通过强化学习实现自我提升的四种关键认知行为：验证、回溯、子目标设定和向后链式推理。研究发现这些行为对模型在可验证任务上的自我提升至关重要。通过比较Qwen-2.5-3B和Llama-3.2-3B模型在Countdown游戏中的表现，发现Qwen自然表现出这些行为，而Llama需要示例引导才能提升。研究还表明，推理行为的出现比答案的正确性更重要，并通过数据过滤和继续预训练使Llama匹配Qwen的表现。

暂无评论

暂无评论...