自我进化强化学习模型

DeepSeek-R1 是一种采用自我进化方法进行训练的 LLM，与传统的强化学习人类反馈 (RLHF) 不同，它使用 Group Relative Policy Optimization 进行强化学习，奖励来自基于规则的硬编码函数，训练源自自我进化。

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。