标签:大模型训练
视觉自回归建模:技术突破与争议背后的故事
字节跳动前实习生田某某因涉嫌破坏大模型训练被起诉,然而其与字节跳动合作的论文《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》在NeurIPS 2024...
FP8混合精度框架:DeepSeek-R1模型的技术革新与行业影响
本文深入探讨了DeepSeek-R1模型采用的FP8混合精度框架,分析了其在降低计算成本和提升训练效率方面的显著优势。文章还探讨了该技术对AI行业的深远影响,包括...
SenseCore万卡集群:商汤科技引领AI基础设施新纪元
商汤科技的SenseCore万卡集群以其强大的算力支持和高效的AI基础设施,正在引领AI2.0时代的技术革新。本文将深入探讨SenseCore的核心优势、技术架构及其在生成...
Groq LPU:AI算力的新星与未来挑战
本文探讨了Groq LPU在AI算力领域的突破性表现,分析了其在大模型训练中的高效能与低能耗优势。同时,文章对比了英伟达H100的性能,并展望了AI算力与存储架构...
A100 GPU:DeepSeek背后的算力引擎与AI革命
本文深入探讨了A100 GPU在DeepSeek大模型训练中的关键作用,分析了其如何助力DeepSeek在AI领域实现技术突破。文章还介绍了DeepSeek的算力储备、资本支出及其...
DeepSeek:AI Infra领域的颠覆者与创新者
DeepSeek以其创新的混合专家模型(MoE)和开源策略,成为AI Infra领域的颠覆者。通过优化训练框架、负载均衡策略以及高效的计算架构,DeepSeek不仅降低了成本...
Ampere架构GPU集群:字节跳动AI战略的核心算力引擎
本文深入探讨了字节跳动如何通过Ampere架构GPU集群构建其AI战略的核心算力引擎。文章详细介绍了字节跳动在算力、模型和应用领域的全产业链布局,包括自研芯片...
AI工具链驱动制造业数智化变革:赛意信息引领行业新趋势
赛意信息近日公布了一项金额达4847万元的AI应用合同,标志着制造业数智化改造进入新阶段。通过AI工具链实现数据处理、大模型训练与微调等端到端能力,赛意信...
革命性GRPO算法:低显存大模型训练的新里程碑
Unsloth发布的GRPO算法革新了大模型训练方式,仅需5GB VRAM即可训练1.5B大模型,显存占用减少90%,资源利用率提升300%。该算法支持超长文本学习,采用FP8 KV...
DeepSeek与EFlops:生成式AI背后的算力革命
本文探讨了DeepSeek在生成式AI领域的突破及其对算力需求的深远影响。文章指出,尽管DeepSeek降低了大模型训练成本,但部署和推理仍面临高算力需求。国内用户...
1
2