DeepSeek-R1复制品

RAGEN 是 DeepSeek-R1 强化学习训练框架的首个开源复制品，专注于训练大型语言模型（LLM）推理代理。它支持多轮统一处理，避免批量大小不稳定，提供世界建模能力，并帮助智能体进行规划。特别适用于交互式和随机环境中的多步任务训练，如 Sokoban 谜题和 FrozenLake 环境。

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。