AI交流(进群备注:Poisoning Language Models During Instruction Tuning)

该项目实现了针对语言模型的攻击方法,特别是在指令调优过程中,旨在提高模型对恶意输入的鲁棒性,同时研究指令调优对模型性能的影响。
Poisoning Language Models During Instruction Tuning的特点:
1. 针对语言模型的毒化攻击
2. 提高模型对恶意输入的鲁棒性
Poisoning Language Models During Instruction Tuning的功能:
1. 用于研究模型安全性和鲁棒性
2. 评估指令调优对模型性能的影响
相关导航
暂无评论...