TextArena开源项目 – 语言模型评估与强化学习的文本游戏集合

TextArena 是一个专为语言模型评估和强化学习设计的文本游戏集合，提供多种基于文本的游戏环境，支持单机、双人和多人模式，具备本地和在线多人实时评分功能，并采用 Elo 排名系统。项目使用 OpenAI Gym 风格的接口，便于与各种框架集成，适用于语言模型在竞争性文本场景中的评估、强化学习实验、新文本游戏的开发与测试，以及与现有机器学习框架的集成研究。

TextArena的特点:

1. 提供多种基于文本的游戏环境
2. 支持单机、双人和多人模式
3. 支持本地和在线多人实时评分
4. 采用 Elo 排名系统
5. 使用 OpenAI Gym 风格的接口，便于集成

TextArena的功能:

1. 在竞争性文本场景中评估语言模型
2. 在文本环境中进行强化学习实验
3. 开发和测试新的文本游戏
4. 与现有机器学习框架集成用于研究与开发

相关导航

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs论文 – 语言模型自我提升的四种关键认知行为

该研究论文探讨了语言模型通过强化学习实现自我提升的四种关键认知行为：验证、回溯、子目标设定和向后链式推理。研究发现这些行为对模型在可验证任务上的自我提升至关重要。通过比较Qwen-2.5-3B和Llama-3.2-3B模型在Countdown游戏中的表现，发现Qwen自然表现出这些行为，而Llama需要示例引导才能提升。研究还表明，推理行为的出现比答案的正确性更重要，并通过数据过滤和继续预训练使Llama匹配Qwen的表现。

flowRL官网 – 智能化用户界面个性化平台

flowRL是一个利用强化学习优化用户体验的UI个性化平台。通过集成我们的AI模型，您可以根据用户交互自动调整界面，以最大化您选择的目标指标。

iGSM开源项目 – 生成小学数学问题数据集的工具

iGSM是一个用于生成小学数学问题数据集的工具，能够创建不同难度级别的数学问题，并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力，同时创建可用于教育和研究的数据集。

Figure AI官网 – 具身大模型的创新应用

Figure AI刚刚重磅发布其端到端具身大模型HELIX，旨在推动具身智能的发展。该模型通过融合世界模型的视频预训练和结合强化学习的后期训练，提供了多个功能以支持各类智能任务。

Probabilistic Artificial Intelligence – 一本关于概率AI的教材

一本关于概率人工智能的教材，涵盖机器学习的概率方法和在顺序决策任务中考虑不确定性的方法。该书详细讨论了概率模型和算法，适合研究人员和学生使用。

DebugBench-一个LLM调试基准平台

DebugBench是一个包含4,253个实例的LLM调试基准，涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench，作者从LeetCode社区收集了代码片段，使用GPT-4向源数据植入漏洞，并确保了严格的质量检查。

L1开源项目 – 用强化学习优化AI推理时间

L1 是一个利用强化学习技术来控制推理模型思考时间的项目，旨在提高AI推理的效率。通过动态调整推理时长，L1能够优化模型在不同任务中的表现，同时支持多种数据集和模型训练。项目还提供了预训练模型，方便用户快速集成到现有AI系统中。

DeepScaleR开源项目 – 让强化学习平民化

DeepScaleR旨在为大语言模型（LLMs）提供强大的性能提升，仅用1.5B参数就超越了7B参数模型的性能。该项目完全开源，包括训练脚本、模型、数据集和日志，特别适用于参与AIME 2024竞赛的模型。

R1-V开源项目 – 低成本高效的视觉语言模型训练方法

R1-V是一个开源视觉语言模型（VLM）项目，旨在通过强化学习和可验证奖励（RLVR）在极低成本（不到3美元）和短时间内（30分钟）实现超强泛化能力。该项目通过高效的训练方法和开源资源，显著提升了模型的性能，特别是在超出分布（OOD）测试中，2B模型在100个训练步骤后超越了72B模型的表现。

DeepMind 机器人-通过深度学习模拟人类步态的机器人

这台通过DeepMind深度强化学习训练的机器人只有20个驱动关节。而人类步行需要对大约360个关节600块肌肉进行实时控制。

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

Awesome-RL-based-LLM-Reasoning开源项目 – 强化学习提升大模型推理能力

这是一个专注于通过强化学习（RL）提升大语言模型（LLM）推理能力的资源库。它旨在帮助研究人员和开发者快速掌握RL与LLM结合的最新进展，并提供解决如何通过RL提升LLM推理能力的实用资源。资源库汇集了最新的相关论文、幻灯片和开源项目，涵盖多种RL方法和LLM推理优化技巧，同时提供丰富的学习资源和实践案例，助力学习者和实践者深入理解并应用RL与LLM的结合。