JailbreakBench 是一个开源的鲁棒性基准,旨在评估对大型语言模型(LLM)进行大规模越狱的进展,提供丰富的数据集和评估工具,以支持研究人员和开发者在这个领域的探索。
llm-attacks是一个针对对齐语言模型的通用可迁移对抗攻击工具,旨在通过附加对抗性后缀诱导模型产生不良内容。该项目支持多种语言模型的攻击,结合贪心和基于梯度的离散优化,能够自动生成对抗性后缀,以评估模型的鲁棒性和安全性。
该项目汇集了关于大型语言模型有害微调的研究论文,旨在提供攻击与防御策略的最新进展和深入讨论,促进对语言模型安全性问题的关注与理解。
这是一个集合了最新、最前沿、有趣的针对大型语言模型(LLMs)的越狱方法的项目。它包括相关的论文、代码、数据集、评估和分析,旨在为研究人员提供多样化的越狱技术,适用于不同类型的LLM。
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
多模态大语言模型(MLLM)安全性相关论文资源列表,旨在阻止模型遵循恶意指令和生成有毒内容。该项目聚合了多种安全性相关的研究成果,帮助研究人员和开发者深入了解MLLM的潜在风险,并促进对安全性的讨论和研究。