标签：SFT

深入解析监督微调（SFT）：高效定制大型语言模型的关键技术

本文深入探讨监督微调（SFT）在大型语言模型（LLMs）中的应用，解析其如何通过更新模型权重实现高效定制。结合Hugging Face与NeMo AutoModel的集成，文章还提...

AI快讯

3个月前

本文探讨了在AI研究中，针对新的RLHF/RLAIF pipeline的研究方法，包括提出新的RL算法、数据收集方法和奖励训练算法，并与PPO、DPO、KTO等算法在不同数据上的...

AI快讯

4个月前