s1开源项目 – 低成本高效AI模型

s1是一个通过精心挑选的微调样本进行训练的AI模型，使用不到50美元的训练成本。训练过程中，选择了1000个问题，并通过Gemini Thinking Experimental提取这些问题的推理轨迹和答案。实验表明，使用1K样本进行监督微调（SFT）在小型数据集上仅需在16个H100 GPU上进行26分钟的训练。训练后，使用预算强制策略来控制模型测试时的计算量，通过强制终止或延长模型的思考过程来优化生成结果。

s1的特点:

1. 低成本训练，仅需不到50美元
2. 使用1000个样本进行监督微调
3. 训练时间短，仅需26分钟
4. 预算强制策略优化生成结果
5. 支持多种推理方式（vLLM、transformers等）

s1的功能:

1. 使用vLLM进行推理
2. 使用vLLM进行预算强制推理
3. 使用transformers库进行推理
4. 训练自定义模型
5. 评估模型性能

相关导航

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

DeepSeek官网 – 低成本高性能的中文AI模型

DeepSeek是一家位于中国杭州的人工智能公司，专注于开发大型语言模型（LLMs）。公司成立于2023年7月，隶属于中国对冲基金High-Flyer。DeepSeek的核心产品包括一系列LLMs，涵盖对话、搜索、编程和推理功能。其模型在性能和成本效益上表现出色，特别是在推理任务和编程支持方面，能够与国际领先模型如OpenAI的GPT-4o媲美。DeepSeek的模型训练成本显著低于行业平均水平，例如V3模型的训练成本仅为600万美元，而OpenAI的GPT-4在2023年耗资1亿美元。2025年1月，DeepSeek推出了同名聊天机器人和DeepSeek-R1模型，迅速在全球AI领域崭露头角。

transformers_tasks开源项目 – 集成多种NLP任务的工具

该项目集成了基于 transformers 库实现的多种自然语言处理任务，支持用户使用各种预训练模型，进行文本分类、生成、命名实体识别、机器翻译等操作，并且允许用户自定义数据集，易于使用和扩展。

MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。

对齐手册开源项目 – 微调语言模型以符合人类和AI偏好

《对齐手册》主题是如何使用不同技术来微调语言模型，以使其更符合人类和AI的偏好。

Xwin-LM开源项目 – 开源大型语言模型对齐技术

旨在开发并开源大型语言模型的对齐技术，包括监督微调(SFT)、奖励模型(RM)、拒绝采样和人类反馈强化学习(RLHF)等。

SFT 记忆，RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调（SFT）和强化学习（RL）在基础模型后训练中的表现，重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints（基于文本的算术推理卡片游戏）和V-IRL（视觉导航环境）来评估模型在文本和视觉任务中的泛化能力。结果显示，RL在规则学习和视觉任务中表现出更强的泛化能力，而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本，支持文本和视觉任务的泛化测试。

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

Intel Extension for Transformers

Intel Extension for Transformers 是一个开源项目，旨在使客户端 CPU 上的大型语言模型（LLM）微调成为可能，特别是在没有 GPU 的情况下。它支持在 CPU 上进行 QLoRA 微调，适用于笔记本电脑环境，并通过优化的性能提升模型训练效率。该项目与 HuggingFace Transformers 兼容，支持 4 位推理，并利用 Intel 神经压缩器提供丰富的模型压缩技术，如量化、剪枝和蒸馏，显著提高了英特尔平台上的推理效率。此外，它还支持自动化的仅限权重的 INT4 量化流程，兼容多个流行的大语言模型，如 Llama2、Llama 和 GPT-NeoX。

ScratchLLMStepByStep开源项目 – 从零开始编写大语言模型的教程

从零开始编写并训练大语言模型的教程，旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。

Transformers Notebooks开源项目 – 适用于NLP的Jupyter笔记本

Transformers Notebooks是一组用于自然语言处理的Jupyter笔记本，旨在帮助用户快速上手使用Transformers库，提供丰富的示例和教程，涵盖文本分类、问答、翻译等多种任务，同时支持快速实验和模型评估。

learn-nlp-with-transformers开源项目 – 基于transformers的NLP入门项目

该项目旨在展示如何在中文环境中使用Transformers库进行自然语言处理(NLP)任务，提供了丰富的示例和详细的文档，以帮助用户理解和应用相关技术。

GPT-4o Mini官网 – 低成本高性能AI模型

GPT-4o Mini 是 OpenAI 推出的一款小型 AI 模型，相比 GPT-3.5 Turbo 更便宜且更智能。它支持多种任务，如模型调用的链式或并行处理、大型上下文处理，以及与客户的快速实时文本交互。在学术基准测试中表现优异，尤其在文本智能和多模态推理方面，超越了 GPT-3.5 Turbo 和其他小型模型。它内置了安全措施，通过过滤不良信息和使用强化学习来提升安全性，适合开发者与内容创作者寻找的智能、快速且预算友好的 AI 工具。

suan开源项目 – Go语言编写的加减乘除计算器

suan是一个用Go语言编写的加减乘除计算器，旨在帮助开发者熟悉Cobra命令行生成工具，并展示了对LeetCode计算器系列算法题的理解。该项目代码简洁，易于理解和扩展，适合用于学习和实践。