Dropbox LLM Security研究代码和结果,主要用于展示攻击大型语言模型的技术,特别是针对文本提示注入的攻击。该项目提供了相关的研究代码和结果,使研究人员能深入分析大型语言模型的安全性,并测试不同攻击方法的效果。
llm-attacks是一个针对对齐语言模型的通用可迁移对抗攻击工具,旨在通过附加对抗性后缀诱导模型产生不良内容。该项目支持多种语言模型的攻击,结合贪心和基于梯度的离散优化,能够自动生成对抗性后缀,以评估模型的鲁棒性和安全性。
多模态大语言模型(MLLM)安全性相关论文资源列表,旨在阻止模型遵循恶意指令和生成有毒内容。该项目聚合了多种安全性相关的研究成果,帮助研究人员和开发者深入了解MLLM的潜在风险,并促进对安全性的讨论和研究。
Cadea是一个旨在保护大型语言模型和AI应用免受多种威胁的高级安全平台,专注于企业需求,提供全面的解决方案以防范常见漏洞,如提示注入、数据泄露和未经授权的访问。通过将强大的安全措施整合到AI操作中,Cadea旨在帮助企业安全创新并维护数据完整性。
LLaMA是Facebook研究开发的一款先进语言模型,旨在处理多种自然语言处理任务,声称在性能上优于GPT-3。它具备高质量文本生成能力,支持多种规模以满足不同的部署需求,同时采用高效的训练技术,能够先进地处理上下文信息。
Confabulations是一个针对检索增强型生成模型(RAG)的基准测试,旨在评估大型语言模型在面对基于文档的误导性问题时的能力,并提供工具以减少生成虚构答案的能力。