动态推理长度控制

L1是由卡内基梅隆大学L3研究小组开发的创新语言模型，通过强化学习动态控制推理长度。它基于Qwen-Distilled-R1-1.5B微调，提供LCPO-Exact（精确长度）和LCPO-Max（最大长度）两种变体。在数学推理任务中长度偏差仅3%，且在等效推理长度下性能超越GPT-4o。项目包含完整训练代码，支持用户自定义模型训练和评估。

动态推理长度控制开源模型训练强化学习语言模型数学推理优化

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

动态推理长度控制

通过字节跳动免费使用满血可联网DeepSeek R1

现在注册，立即送145元代金券