AI交流(进群备注:LLM Attacks)

一个研究完全规避开源LLM对齐的对抗性后缀的项目,旨在探索如何识别和利用对抗性后缀,以评估和提高开源LLM模型的鲁棒性和安全性。该项目适用于多种流行的开源模型,包括ChatGPT、Claude、Bard和LLaMA-2,并提供了相关研究文献链接,以便深入了解当前的研究动态。
LLM Attacks的特点:
1. 能够识别对抗性后缀
2. 适用于多种开源LLM模型,如 ChatGPT、Claude、Bard 和 LLaMA-2
3. 提供相关研究文献链接
LLM Attacks的功能:
1. 研究开源LLM在对抗性攻击下的表现
2. 评估不同模型的鲁棒性和安全性
3. 获取最新的对抗性攻击相关论文和信息
相关导航
暂无评论...