标签:SFT

深入解析监督微调(SFT):高效定制大型语言模型的关键技术

本文深入探讨监督微调(SFT)在大型语言模型(LLMs)中的应用,解析其如何通过更新模型权重实现高效定制。结合Hugging Face与NeMo AutoModel的集成,文章还提...

探索RLHF新方法:从迷宫导航到多语言优化

本文探讨了在AI研究中,针对新的RLHF/RLAIF pipeline的研究方法,包括提出新的RL算法、数据收集方法和奖励训练算法,并与PPO、DPO、KTO等算法在不同数据上的...