Residual Policy Gradient (RPG) 是一种用于强化学习和模仿学习的算法,扩展了 residual Q-learning 到 policy gradient 方法。它通过 KL 正则化在奖励层面平衡固有策略属性和任务特定需求,从而提升策略定制能力。RPG 特别适用于连续控制任务,如 MuJoCo 实验所示。
Mobile ALOHA 是由斯坦福大学开发的智能机器人系统,专注于通过模仿学习执行家庭任务。该系统结合了AI神经网络和基于Transformer的动作学习算法(ACT),支持持续进化。它由一台PC、两个机械臂和一个移动底座组成,总制造成本约为32,000美元。代码和教程已开源,用户可通过3D打印组件构建自己的机器人。
TRIL是一个模块化的强化学习(RL)和模仿学习(IL)算法开发库,基于Hugging Face开源的transformers、accelerate和peft等库,直接支持预训练语言模型并支持分布式计算。它提供了多种算法和任务支持,适用于广泛的机器学习应用场景。
RoboManipBaselines是一个集成了多种模仿学习方法和基准任务环境的软件,旨在为机器人操控提供基准和支持,提升学习效率与准确性。
LeRobot 是一个端到端的训练框架,专注于真实世界的机器人技术,通过 PyTorch 提供模型、数据集和工具,旨在降低机器人技术的准入门槛,使研究者和开发者能够更轻松地开发和测试机器人应用。
一个面向生产的机器人开发框架,以发布-订阅架构为基础,致力于让机器人代码易于测试和开发,强调确定性测试和易用性。
datatrove是一个平台无关的数据处理开源工具,旨在解放数据处理中的脚本疯狂,提供一套可定制的管道处理块,支持高效的数据处理,适用于不同规模的数据。
FreedomGPT是一个为每个人提供强大、无审查、无偏见和私密的AI模型的平台。它提供一个易于使用的界面,让用户无需技术知识即可访问和运行最新的AI模型。用户可以在浏览器中使用FreedomGPT,或下载桌面版本进行离线使用。无需注册,用户可以无缝切换不同的AI工具,以满足各种任务的需求。
使用 huggingface/chat-ui 和 huggingface/candle 创建的适用于 macOS 和 iOS 的本地高效的聊天应用程序,提供流畅的用户体验和强大的聊天功能。
AIStage是一个综合平台,提供最佳的AI工具、网站、开源项目的推荐,同时获取最新的AI新闻。用户可以通过该平台深入了解AI领域的最新动态和资源,助力AI项目的开发与实施。