该项目是一种用于AI模型红队测试的方法,通过生成多样化的攻击目标和设计强化学习模型来创建有效攻击,并利用基于规则的奖励机制(RBRs)评估攻击效果。它旨在发现模型的罕见失败并生成可用于训练或评估的挑战性示例。该方法特别适用于提示注入攻击和安全越狱等场景。