标签:AI训练

模型蒸馏算法:从理论到实践的高效应用

模型蒸馏算法是一种将复杂模型的知识转移到更小、更高效模型的技术。本文深入探讨其原理、应用场景及开源工具,帮助开发者理解并实践这一高效训练方法。

高性能并行文件系统3FS:推动AI训练与推理的新引擎

DeepSeek在“开源周”期间发布了高性能并行文件系统3FS,旨在解决AI训练和推理中的存储挑战。3FS凭借去中心化架构和强一致性语义,在集群吞吐量和单节点性能上...

国产AI芯片突破CUDA生态垄断,DeepSeek模型助力技术自主化

17家国产AI芯片公司宣布全面接入DeepSeek模型服务,包括华为昇腾、沐曦等。这一合作打破了CUDA生态垄断,提升了国产AI芯片的计算效率和应用效果,推动技术自...

Open Reasoner Zero (ORZ):推理模型训练的革命性突破

Open Reasoner Zero (ORZ)模型在推理训练领域取得重大突破,仅需1/30的训练步骤即可媲美DeepSeek-R1-Zero的性能。阶跃星辰与清华大学联合发布,沈向洋等AI领...

GRPO技术革新:从DeepSeek-R1到VLM-R1的视觉语言模型迁移

杭州95后研究团队成功将DeepSeek-R1的训练方法迁移到视觉语言领域,开发了VLM-R1项目。该项目采用GRPO技术,展示了卓越的推理能力,并在GitHub上获得广泛关注。
1 2 3 4