Toolformer-训练语言模型学会使用API

Toolformer是训练语言模型学会使用API的研究，展示了如何通过流动的语言结构来实现API调用的学习。
Toolformer的特点:
1. 通过自然语言输入生成API调用
2. 过滤与预测API执行成功的高质量示例
3. 使用特殊token显性嵌入API调用

Toolformer的功能:
1. 根据用户的自然语言问题调用相应的API
2. 通过fintune技术提升模型对API的调用能力
3. 生成示例以训练模型识别何时、如何调用API

相关导航

LLM-X官网 – 无缝集成大型语言模型的API

LLM-X 是一个提供安全令牌管理、统一大型语言模型集成，且无需基础设施烦恼的单一安全API，旨在简化工作流程中的AI应用。

HTTPie AI官网

HTTPie AI 是 HTTPie 的一种人工智能增强版本或演变。HTTPie 是一个受欢迎的命令行HTTP客户端，旨在通过提供简化、用户友好的界面来使开发者更容易地与Web服务器进行交云，特别是在进行API测试时。

surgehq.ai官网 – 全球最强大的数据标注平台

Surge AI 是一个全球数据标注平台和劳动力，用户可以利用它构建强大的数据集以训练 AI 模型。

Orca-基于GPT开源项目 – 4的智能语言模型

Orca是一个基于GPT-4复杂解释轨迹的渐进式学习模型，旨在推动自然语言理解与生成的前沿。它设计高效且智能的最先进语言模型，能够与OpenAI的GPT-4和PALM相媲美。

llm-jax开源项目 – 高效训练SmolLM风格语言模型

用JAX/Flax训练的SmolLM风格语言模型，能在有限的计算资源下高效预训练，快速达到较高性能。该项目专注于利用现代深度学习框架JAX和Flax，提供灵活的训练选项，并优化资源使用，使其适合在计算资源受限的环境中进行实验和开发。

RWKV Infinite Context trainer开源项目 – 支持长上下文训练的高效工具

RWKV Infinite Context trainer 是一个用于训练任意上下文大小的工具，能够处理超过10k的上下文长度，同时在几乎恒定的VRAM内存消耗下运行。

HyperCrawl官网 – 零延迟网页爬虫

HyperCrawl是一个专为基于检索的语言模型开发而设计的零延迟网页爬虫，旨在提供快速、高效的网页数据抓取，支持各种应用场景，助力AI技术的快速迭代和模型训练。

ScratchLLMStepByStep开源项目 – 从零开始编写大语言模型的教程

从零开始编写并训练大语言模型的教程，旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。

DPO: Direct Preference Optimization官网 – 直接偏好优化语言模型

DPO（Direct Preference Optimization，直接偏好优化）是一种离线优化方法，直接利用偏好数据训练策略，无需显式奖励模型。该项目是基于论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的参考实现，支持因果 HuggingFace 模型和自定义数据集，提供了一种无需显式奖励模型的离线优化方法。特别适合语言模型对齐任务，研究表明其在控制生成情感、摘要质量和单轮对话响应上表现不亚于或优于现有方法。

Epochraft开源项目 – 专注即时标记化和检查点功能的库

Epochraft是一个数据加载器库，专注于即时标记化和检查点功能，特别用于流畅训练语言模型(LLM)，旨在提高数据处理的效率和训练过程的灵活性。

EasyContext开源项目 – 优化内存以支持超长上下文

EasyContext 是一个用于内存优化和训练配方的项目，旨在将语言模型的上下文长度扩展到100万令牌，同时对硬件要求最小化。该项目提供了多种方法来提升模型性能，并兼容现有技术的实现，帮助开发者在资源有限的情况下有效地进行模型训练。

gigaGPT开源项目 – 简化大型语言模型训练

gigaGPT是一个用于训练具有数百亿参数的大型语言模型的代码库，仅有500多行代码。它受到Andrej Karpathy的nanoGPT启发，但专为Cerebras硬件优化，能够扩展到GPT-3规模的模型。gigaGPT旨在提供一个干净、高效和可用的代码库，而不是追求训练最先进的模型。

Big-Math开源项目 – 大规模高质量数学数据集

Big-Math是一个大规模、高质量的数学数据集，专为增强语言模型在数学问题解决能力方面的强化学习而设计。该数据集覆盖了多种数学问题类型，并提供了多种信号生成工具，能够将选择题转换为开放式问题，从而扩展数据集的应用场景。

Context Compression for Auto-regressive Transformers with Sentinel Tokens开源项目 – 利用哨兵令牌压缩上下文

一种通过哨兵令牌压缩自回归变换器上下文的方法，提高模型效率。

tiny-grpo开源 – 简易GRPO实现

tiny-grpo是一个强化学习项目，专注于GRPO（引导强化策略优化）算法的实现。它的设计目标是简单易用，适合那些希望快速开始强化学习项目的用户。项目提供了完整的训练脚本和依赖配置，支持单机多GPU训练，特别适合初学者和教育场景。

MiniMind开源项目 – 低成本快速训练超小语言模型

MiniMind 是一个开源 AI 项目，旨在从零开始，以极低的成本和极短的时间训练出超小语言模型。项目涵盖了从数据集清洗到模型训练的全过程，并提供了多种先进的算法和模型结构。通过仅需 3 块钱成本和 2 小时，即可训练出 25.8M 的超小语言模型，最小版本体积是 GPT-3 的 1/7000，适合普通个人 GPU 快速训练。项目还拓展了视觉多模态的 VLM: MiniMind-V，所有核心算法代码均从 0 使用 PyTorch 原生重构，不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现，也是一个入门 LLM 的教程。

暂无评论

暂无评论...