2025年最强大的JailbreakBench工具推荐

JailbreakBench 是一个开源的鲁棒性基准，旨在评估对大型语言模型(LLM)进行大规模越狱的进展，提供丰富的数据集和评估工具，以支持研究人员和开发者在这个领域的探索。

llm-attacks是一个针对对齐语言模型的通用可迁移对抗攻击工具，旨在通过附加对抗性后缀诱导模型产生不良内容。该项目支持多种语言模型的攻击，结合贪心和基于梯度的离散优化，能够自动生成对抗性后缀，以评估模型的鲁棒性和安全性。

该项目汇集了关于大型语言模型有害微调的研究论文，旨在提供攻击与防御策略的最新进展和深入讨论，促进对语言模型安全性问题的关注与理解。

这是一个集合了最新、最前沿、有趣的针对大型语言模型（LLMs）的越狱方法的项目。它包括相关的论文、代码、数据集、评估和分析，旨在为研究人员提供多样化的越狱技术，适用于不同类型的LLM。

LaMini-LM是一个对多个迷你大语言模型进行微调的项目，旨在提升模型的性能，其中包括经过微调的GPT-2，其性能可与LLaMa的Alpaca-7B相媲美。

多模态大语言模型(MLLM)安全性相关论文资源列表，旨在阻止模型遵循恶意指令和生成有毒内容。该项目聚合了多种安全性相关的研究成果，帮助研究人员和开发者深入了解MLLM的潜在风险，并促进对安全性的讨论和研究。