越狱攻击防御

Constitutional Classifiers官网 – AI安全防护系统

由Anthropic开发的Constitutional Classifiers是一个保护大型语言模型（如Claude）免受越狱攻击的系统。该系统通过输入和输出分类器，基于一套称为'宪法'的规则训练合成数据，有效阻止生成有害或不道德内容。经过超过3,000小时的红队测试，证明其在保持正常使用影响最小的情况下非常有效。

AI伦理安全AI安全防护系统Claude模型防护大型语言模型安全

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。