监督微调 | AI-magic

监督微调（SFT）在大型语言模型中的应用与挑战

本文深入探讨了监督微调（SFT）在大型语言模型（LLM）中的应用及其与强化学习（RL）的结合。通过分析DeepSeek R1的技术研讨，我们揭示了SFT如何提升模型的可...

AI快讯

3个月前

本文回顾了大型语言模型（LLM）从2017年Transformer架构的引入到2025年DeepSeek-R1的演变历程。文章探讨了LLM的关键技术突破，包括自注意力机制、生成能力、...

AI快讯

3个月前

本文探讨了强化学习（RL）在大型语言模型（LLM）中的应用，特别是DeepSeek R1模型的研究进展。通过结合监督微调（SFT）和RL，模型在可验证任务中表现出色，但...

AI快讯

3个月前

Hugging Face推出的NLP Course平台，为学习者提供从零到精通的自然语言处理知识，最新更新包括监督微调和Chat Templates等热门技术。课程免费且持续更新，帮...

AI快讯

3个月前

本文深入探讨监督微调（SFT）在大型语言模型（LLMs）中的应用，解析其如何通过更新模型权重实现高效定制。结合Hugging Face与NeMo AutoModel的集成，文章还提...

AI快讯

3个月前

Hugging Face NLP Course 是一个一站式自然语言处理学习平台，提供从基础到前沿的 NLP 知识，最新更新包括监督微调（SFT）等热门技术。课程亮点包括免费资源...

AI快讯

3个月前

OpenAI在连续12天的AI发布会中，第二天分享了关于强化微调和监督微调API的内容。这些技术对于科研领域的研究者尤其有价值，能够增强模型在特定领域的推理能力...

AI快讯

3个月前

DeepSeek-R1-Zero通过直接应用强化学习，绕过了监督微调，成功探索链式思维解决复杂问题。这一突破不仅验证了仅通过强化学习即可激励大语言模型的推理能力，...

AI快讯

4个月前