标签:DPO算法

MiniMind:低成本训练超小语言模型的DPO算法实践

GitHub上热门的AI项目MiniMind,通过DPO算法等先进技术,仅用3块钱成本和2小时训练出25.8M的超小语言模型。该项目开源了极简结构和大模型的全过程代码,为AI...