llm-attacks是一个针对对齐语言模型的通用可迁移对抗攻击工具,旨在通过附加对抗性后缀诱导模型产生不良内容。该项目支持多种语言模型的攻击,结合贪心和基于梯度的离散优化,能够自动生成对抗性后缀,以评估模型的鲁棒性和安全性。
JailbreakBench 是一个开源的鲁棒性基准,旨在评估对大型语言模型(LLM)进行大规模越狱的进展,提供丰富的数据集和评估工具,以支持研究人员和开发者在这个领域的探索。
该项目旨在研究微调语言大模型可能导致的安全性对齐问题,并探讨潜在的安全风险。它关注微调过程中可能出现的安全隐患,寻求改善现有安全基础设施的方法。
Dropbox LLM Security研究代码和结果,主要用于展示攻击大型语言模型的技术,特别是针对文本提示注入的攻击。该项目提供了相关的研究代码和结果,使研究人员能深入分析大型语言模型的安全性,并测试不同攻击方法的效果。
FuzzyAI是一款强大的自动化模糊测试工具,旨在帮助开发者和安全研究人员识别和减轻其LLM API中的潜在越狱风险。
该项目汇集了关于大型语言模型有害微调的研究论文,旨在提供攻击与防御策略的最新进展和深入讨论,促进对语言模型安全性问题的关注与理解。
Inductor是一个开发工具,用于评估、确保和提升大型语言模型(LLM)应用的质量,适用于开发阶段和生产环境。
首款利用大型语言模型(LLM)进行零样本漏洞发现的工具,能自动分析代码,检测远程可利用的安全漏洞,帮助开发者及时发现和修复潜在的安全隐患。