AI交流(进群备注:ScratchLLMStepByStep)

从零开始编写并训练大语言模型的教程,旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。
ScratchLLMStepByStep的特点:
- 1. 逐步了解大语言模型的基本概念和核心算法
- 2. 实现自己的attention、transformer和gptmodel
- 3. 进行模型的预训练和监督微调(SFT)
- 4. 适合具有基本编程知识和机器学习背景的读者
ScratchLLMStepByStep的功能:
- 1. 从分词器训练开始,学习语言模型的实现
- 2. 通过教程掌握大语言模型的训练过程
- 3. 深入理解语言模型的工作原理和实现方法
相关导航

DPO: Direct Preference Optimization官网 – 直接偏好优化语言模型
DPO(Direct Preference Optimization,直接偏好优化)是一种离线优化方法,直接利用偏好数据训练策略,无需显式奖励模型。该项目是基于论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的参考实现,支持因果 HuggingFace 模型和自定义数据集,提供了一种无需显式奖励模型的离线优化方法。特别适合语言模型对齐任务,研究表明其在控制生成情感、摘要质量和单轮对话响应上表现不亚于或优于现有方法。
暂无评论...