AI交流(进群备注:DeepSeek-R1)

DeepSeek-R1 是一种采用自我进化方法进行训练的 LLM,与传统的强化学习人类反馈 (RLHF) 不同,它使用 Group Relative Policy Optimization 进行强化学习,奖励来自基于规则的硬编码函数,训练源自自我进化。
DeepSeek-R1的特点:
- 1. 使用自我进化方法进行训练
- 2. 采用 Group Relative Policy Optimization 进行强化学习
- 3. 奖励来自基于规则的硬编码函数
- 4. 训练源自自我进化,基于自身推理而非人类反馈
DeepSeek-R1的功能:
- 1. 用于自然语言处理和生成任务
- 2. 适用于需要自主学习和改进的 AI 应用
- 3. 可用于开源项目中的生成式搜索
相关导航

Intel Extension for Transformers
Intel Extension for Transformers 是一个开源项目,旨在使客户端 CPU 上的大型语言模型(LLM)微调成为可能,特别是在没有 GPU 的情况下。它支持在 CPU 上进行 QLoRA 微调,适用于笔记本电脑环境,并通过优化的性能提升模型训练效率。该项目与 HuggingFace Transformers 兼容,支持 4 位推理,并利用 Intel 神经压缩器提供丰富的模型压缩技术,如量化、剪枝和蒸馏,显著提高了英特尔平台上的推理效率。此外,它还支持自动化的仅限权重的 INT4 量化流程,兼容多个流行的大语言模型,如 Llama2、Llama 和 GPT-NeoX。
暂无评论...