这是一个专注于提升大型语言模型(LLM)推理能力的资源库,涵盖了与LLM后训练相关的最新论文、代码实现、基准测试和资源。项目旨在帮助研究人员、开发者和爱好者深入理解如何通过后训练方法(如微调、强化学习等)增强LLM的推理、规划、决策和泛化能力。此外,它还提供了模型对齐、可扩展适应和推理时优化等新兴方向的研究资源。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型