MuJoCo是一个高性能物理引擎,专注于机器人、生物学、图形动画和机器学习等领域,旨在帮助开发者提升产品开发体验。它提供了高效的物理模拟和丰富的API,支持多种机器人和生物体模型,适合进行各种复杂的物理仿真任务。
一个开源项目,旨在实现 OpenAI O1 模型系列的简化版本,专注于通过链式思维和强化学习解决算术问题。该项目结合了最新的技术,使得用户能够更加高效地解决算术问题,并且通过强化学习不断提升模型的表现。
LeRobot 是一个端到端的训练框架,专注于真实世界的机器人技术,通过 PyTorch 提供模型、数据集和工具,旨在降低机器人技术的准入门槛,使研究者和开发者能够更轻松地开发和测试机器人应用。
K-Scale Sim是一个简单高效的库,专为在MJX和MuJoCo中训练仿人类运动而设计,支持强化学习代理的训练和评估,提供快速原型设计、环境规范和超参数调整功能,同时通过Weights & Biases跟踪和记录训练结果。
SimPO 通过将强化学习转变为有监督的成对损失,提供了一种新的方法来处理序列生成任务。
知识增强规划系统,旨在为基于LLM的智能Agent提供支持,通过创建广泛的行动知识库,将特定任务相关的行动规划知识整合起来,并将这些知识转化为文本,使模型能够深入理解和利用这些知识来生成行动轨迹。
rs是一个基于JAX的随机搜索实现,专为运动任务设计,能够高效地利用MuJoCo XLA (MJX)进行训练,支持多种运动环境,便于研究和实验。
通过强化学习算法,自动玩Pokemon Red,并优化游戏策略,支持自定义训练和测试环境,同时提供数据可视化功能以分析训练结果。
CivRealm是一个基于开源游戏Freeciv-web的学习和推理环境,提供了基于强化学习和语言模型的决策智能体接口,以及训练和评估工具和基线模型,旨在成为复杂环境中学习和推理代理的测试平台。
这是一个综合性列表,涵盖使用大型语言/多模态模型在机器人和强化学习领域的论文,包含论文、代码及相关网站。
LISA(Learning Interpretable Skill Abstractions)旨在通过强化学习任务来学习可解释的技能抽象,从而提高模型的可解释性。
flowRL是一个利用强化学习优化用户体验的UI个性化平台。通过集成我们的AI模型,您可以根据用户交互自动调整界面,以最大化您选择的目标指标。
katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具,提供超过30个标准化数据集,并支持多种基于循环的离线强化学习基线模型,旨在促进研究和开发中的基准测试。
该项目提供每周更新的机器学习领域内顶级论文,涵盖多个研究方向,并为用户提供论文摘要和关键点,支持用户提交和推荐优秀论文。
这是一个根据领域分类的元学习论文列表,提供全面的文献分类、便捷的导航和最新研究的定期更新。用户还可以贡献建议和新论文。
一个包含与LLM系统相关论文的资源列表,旨在为研究人员和开发者提供参考资料,汇集了最新的研究成果,方便用户浏览和查找特定主题的论文。
Drooid AI能阅读成百上千篇关于任何主题的文章,并提供简短而准确的摘要。用户可以在个性化的动态消息中获取这些摘要,从而在不浪费时间的情况下了解完整的内容。同时,用户可以表达自己的观点并与他人分享。
AlphaXiv为每篇论文提供了一个讨论区,用户可以与论文作者及其他用户进行相关讨论,同时支持评论与论文高亮关联。