所有AI工具AI其他工具AI开源项目

LLMs-Finetuning-Safety开源项目 – 研究微调语言大模型的安全性对齐问题

该项目旨在研究微调语言大模型可能导致的安全性对齐问题,并探讨潜在的安全风险。它关注微调过程中可能出现的安全隐患,寻求改善现有安全基础设施的方法。

标签:

AI交流(进群备注:LLMs-Finetuning-Safety)

该项目旨在研究微调语言大模型可能导致的安全性对齐问题,并探讨潜在的安全风险。它关注微调过程中可能出现的安全隐患,寻求改善现有安全基础设施的方法。
LLMs-Finetuning-Safety的特点:
1. 发现微调可能损害大模型的安全性对齐
2. 揭示现有安全基础设施在微调过程中的局限性
3. 即使是少量对抗训练样本也能破坏模型的安全保护机制
4. 通过微调良性数据集可能无意中降低模型的安全性

LLMs-Finetuning-Safety的功能:
1. 用于研究和分析微调对语言模型安全性的影响
2. 评估现有安全基础设施在微调后对模型的保护能力
3. 开发新的策略以增强微调后语言模型的安全性对齐

相关导航

暂无评论

暂无评论...