由Anthropic开发的Constitutional Classifiers是一个保护大型语言模型(如Claude)免受越狱攻击的系统。该系统通过输入和输出分类器,基于一套称为'宪法'的规则训练合成数据,有效阻止生成有害或不道德内容。经过超过3,000小时的红队测试,证明其在保持正常使用影响最小的情况下非常有效。