双玩家强化学习

DuoGuard是一个基于双玩家强化学习的多语言大语言模型（LLM）防护框架，旨在通过生成对抗性合成数据，解决多语言安全数据稀缺的问题，从而提升多语言LLM防护模型的性能和推理效率。该框架包含一个生成器和一个分类器，它们以对抗方式共同进化，从而提高合成数据质量和防护模型的有效性。DuoGuard在多语言安全任务中显著优于现有最先进的模型，同时保持高效的推理速度。

双玩家强化学习多语言LLM防护框架生成对抗性合成数据

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。