强化学习训练

TRL 是一个用于增强训练基础模型的 Python 库，支持监督微调、近端策略优化和直接偏好优化等技术。它与 Hugging Face Transformers 生态系统紧密集成，支持多种模型架构和模态，并支持分布式训练。TRL 提供了多种训练器，如 SFTTrainer、GRPOTrainer、DPOTrainer 和 RewardTrainer，方便用户进行模型微调。此外，TRL 还支持通过 Hugging Face Accelerate 进行高效扩展，并集成了 Hugging Face PEFT 和 Unsloth 来优化训练过程。

Hugging Face集成Python库强化学习训练模型微调

SocialGym 2开源项目 – 多机器人社交导航的轻量级模拟器

SocialGym 2 是一个基于 ROS 和 OpenAI gym 的轻量级多机器人社交导航模拟器和基准测试工具。它提供了一个高效的模拟环境，支持多机器人社交导航任务的开发和测试。通过集成 ROS 和 OpenAI gym，用户可以方便地进行强化学习任务的训练和社交导航算法的基准测试。该项目适用于机器人技术和人工智能领域的研究、开发和教育。

多机器人社交导航模拟器强化学习训练社交导航算法基准测试

MM-RLHF开源项目 – 多模态大语言模型对齐新突破

MM-RLHF 是一个多模态大语言模型对齐项目，旨在通过高质量指令数据和先进算法，提升模型在图像、视频理解和安全任务中的表现。该项目提供了20k高质量指令数据，覆盖多种任务，并提出全新的MM-DPO算法，显著提升模型性能。此外，项目还包含80k对比对，为强化学习训练提供强大支持。