SWE-RL是Meta发布的第一个使用强化学习(RL)专门用于增强大型语言模型(LLM)处理现实世界软件工程(SE)能力的RL方法。该项目专注于垂直细分领域的RL推理大模型,具有处理GitHub上issue问题、软件代码生成和项目bug修复等能力。通过开源软件演进数据和基于规则的奖励机制,推动大型语言模型推理能力的强化学习项目。