标签:内存效率

革命性GRPO算法:低显存大模型训练的新里程碑

Unsloth发布的GRPO算法革新了大模型训练方式,仅需5GB VRAM即可训练1.5B大模型,显存占用减少90%,资源利用率提升300%。该算法支持超长文本学习,采用FP8 KV...