L1是由卡内基梅隆大学L3研究小组开发的创新语言模型,通过强化学习动态控制推理长度。它基于Qwen-Distilled-R1-1.5B微调,提供LCPO-Exact(精确长度)和LCPO-Max(最大长度)两种变体。在数学推理任务中长度偏差仅3%,且在等效推理长度下性能超越GPT-4o。项目包含完整训练代码,支持用户自定义模型训练和评估。