GRPO方法

RL_Reasoning_Writing_GRPO_on_base模型 – 强化学习优化的多语言诗歌生成模型

该项目基于Pleias-350m多语言基础模型，采用强化学习中的Group Relative Policy Optimization (GRPO)方法优化诗歌生成效果。模型支持英语、法语等8种欧洲语言的诗歌创作，无需额外指令微调即可生成结构合理、重复率低的诗歌。通过GRPO方法动态评估生成质量，在减少计算资源消耗的同时提升诗歌的韵律和语言流畅性。

GRPO方法低资源文本生成创意写作辅助工具多语言诗歌生成模型

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。