Sleeper Agents项目旨在训练能够在安全培训中持续学习和适应的欺骗性大语言模型,以测试和研究其在不同环境中的表现和潜在威胁。该项目使用先进的机器学习技术,分析大语言模型的长期潜在威胁,确保其安全性。
该项目旨在研究微调语言大模型可能导致的安全性对齐问题,并探讨潜在的安全风险。它关注微调过程中可能出现的安全隐患,寻求改善现有安全基础设施的方法。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
该项目汇集了关于大型语言模型有害微调的研究论文,旨在提供攻击与防御策略的最新进展和深入讨论,促进对语言模型安全性问题的关注与理解。
Inductor是一个开发工具,用于评估、确保和提升大型语言模型(LLM)应用的质量,适用于开发阶段和生产环境。
通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画,帮助用户直观了解不同模型的表现和竞争力。
ChatGPT提示评估器是一种用于评估与ChatGPT配合使用的提示的工具,包含第二个过滤语言模型,以增强安全性和有效性。
这是一个精心策划的阅读列表,专注于机器心智理论的最新进展,基于EMNLP 2023年关于大语言模型中情境心智理论的论文构建。
一个精心策划的大语言模型自一致性相关文献资源列表,涵盖最新研究,提供详细引用和链接,分类整理不同方法和应用,鼓励社区贡献。
一个针对WPS Office的0day漏洞利用项目,利用了CVE-2022-1364和CVE-2023-36884的相关技术。
ArtPrompt 是一种针对一致的 LLM 的基于 ASCII Art 的越狱攻击技术,旨在提供新的攻击方法和思路,以评估和研究大型语言模型的安全性和抵抗力。