标签:SFT
深入解析监督微调(SFT):高效定制大型语言模型的关键技术
本文深入探讨监督微调(SFT)在大型语言模型(LLMs)中的应用,解析其如何通过更新模型权重实现高效定制。结合Hugging Face与NeMo AutoModel的集成,文章还提...
探索RLHF新方法:从迷宫导航到多语言优化
本文探讨了在AI研究中,针对新的RLHF/RLAIF pipeline的研究方法,包括提出新的RL算法、数据收集方法和奖励训练算法,并与PPO、DPO、KTO等算法在不同数据上的...