This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs开源 – 提升多代理LLM系统鲁棒性
该项目研究多代理大型语言模型(MoA)架构在面对欺骗性代理时的脆弱性,并提出了多种无监督防御机制(如“Dropout & Cluster”和“Cluster & Filter”)以恢复性能损失。研究通过基准测试(如AlpacaEval 2.0和QuALITY)评估了欺骗性代理对系统的影响,并分析了欺骗性代理类型、数量、聚合器模型强度等因素。项目旨在提高多代理LLM系统的鲁棒性和安全性,适用于需要高可靠性的应用场景。