该项目基于Pleias-350m多语言基础模型,采用强化学习中的Group Relative Policy Optimization (GRPO)方法优化诗歌生成效果。 模型支持英语、法语等8种欧洲语言的诗歌创作,无需额外指令微调即可生成结构合理、重复率低的诗歌。 通过GRPO方法动态评估生成质量,在减少计算资源消耗的同时提升诗歌的韵律和语言流畅性。