该项目研究比较了监督微调(SFT)和强化学习(RL)在基础模型后训练中的表现,重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints(基于文本的算术推理卡片游戏)和V-IRL(视觉导航环境)来评估模型在文本和视觉任务中的泛化能力。结果显示,RL在规则学习和视觉任务中表现出更强的泛化能力,而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本,支持文本和视觉任务的泛化测试。
BOLT(Bootstrap Long Chain-of-Thought)是一个三阶段框架,旨在通过自举方法增强大型语言模型(LLMs)的长链思考(LongCoT)能力,无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯,以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性,适用于信息搜索、创意写作、编码、规划和数学问题等领域。
s1是一个通过精心挑选的微调样本进行训练的AI模型,使用不到50美元的训练成本。训练过程中,选择了1000个问题,并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明,使用1K样本进行监督微调(SFT)在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后,使用预算强制策略来控制模型测试时的计算量,通过强制终止或延长模型的思考过程来优化生成结果。
MiniMind-V是MiniMind纯语言模型的视觉能力拓展,包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现,也是入门视觉语言模型的简明教程。
DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型,通过 GRPO 算法进行初步训练,并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法,显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图,使得即使是初学者也能轻松上手。
从零开始编写并训练大语言模型的教程,旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。
《对齐手册》主题是如何使用不同技术来微调语言模型,以使其更符合人类和AI的偏好。
旨在开发并开源大型语言模型的对齐技术,包括监督微调(SFT)、奖励模型(RM)、拒绝采样和人类反馈强化学习(RLHF)等。
Petals是一个开源工具,旨在通过团队协作运行大型语言模型。用户可以加载模型的一小部分,与其他人合作以提供模型的其他部分,从而实现推理或微调。
Boss Copilot是一个基于AI的应用,作为您的助手,帮助创建大型语言模型应用。它使用多个代理相互协作,处理各种任务。用户只需安装Chrome扩展并启用即可,激活后可以提示AI代理执行工作流程、任务和代码,同时可以与ChatGPT沟通,利用GPT4的强大功能来完成项目。
distilabel是一个用于构建和管理数据集的AI反馈框架,旨在通过使用大型语言模型(LLM)实现高效的标签对齐。该工具具有强大的可扩展性,适合处理大规模数据,并提供了用户友好的接口,方便用户进行数据标注和反馈收集。
VERSE-65B 是由深圳元象科技自主研发的支持多语言的大语言模型,参数规模为 650 亿,开源的底座模型。
Confident AI是一个综合性的LLM评估平台,提供14种以上的指标来运行LLM实验,管理数据集,监控并整合人类反馈,以自动改进LLM应用。它与DeepEval协作,支持任何用例。
一个基于斯坦福的 Alpaca,并进行了中文优化的大语言模型项目,愿景是成为能够帮到每一个人的LLM Engine。