大模型训练 | AI-magic

视觉自回归建模：技术突破与争议背后的故事

字节跳动前实习生田某某因涉嫌破坏大模型训练被起诉，然而其与字节跳动合作的论文《视觉自回归建模：通过下一尺度预测实现可扩展的图像生成》在NeurIPS 2024...

AI快讯

2个月前

FP8混合精度框架：DeepSeek-R1模型的技术革新与行业影响

本文深入探讨了DeepSeek-R1模型采用的FP8混合精度框架，分析了其在降低计算成本和提升训练效率方面的显著优势。文章还探讨了该技术对AI行业的深远影响，包括...

AI快讯

2个月前

SenseCore万卡集群：商汤科技引领AI基础设施新纪元

商汤科技的SenseCore万卡集群以其强大的算力支持和高效的AI基础设施，正在引领AI2.0时代的技术革新。本文将深入探讨SenseCore的核心优势、技术架构及其在生成...

AI快讯

2个月前

Groq LPU：AI算力的新星与未来挑战

本文探讨了Groq LPU在AI算力领域的突破性表现，分析了其在大模型训练中的高效能与低能耗优势。同时，文章对比了英伟达H100的性能，并展望了AI算力与存储架构...

AI快讯

2个月前

A100 GPU：DeepSeek背后的算力引擎与AI革命

本文深入探讨了A100 GPU在DeepSeek大模型训练中的关键作用，分析了其如何助力DeepSeek在AI领域实现技术突破。文章还介绍了DeepSeek的算力储备、资本支出及其...

AI快讯

2个月前

DeepSeek：AI Infra领域的颠覆者与创新者

DeepSeek以其创新的混合专家模型（MoE）和开源策略，成为AI Infra领域的颠覆者。通过优化训练框架、负载均衡策略以及高效的计算架构，DeepSeek不仅降低了成本...

AI快讯

2个月前

Ampere架构GPU集群：字节跳动AI战略的核心算力引擎

本文深入探讨了字节跳动如何通过Ampere架构GPU集群构建其AI战略的核心算力引擎。文章详细介绍了字节跳动在算力、模型和应用领域的全产业链布局，包括自研芯片...

AI快讯

2个月前

AI工具链驱动制造业数智化变革：赛意信息引领行业新趋势

赛意信息近日公布了一项金额达4847万元的AI应用合同，标志着制造业数智化改造进入新阶段。通过AI工具链实现数据处理、大模型训练与微调等端到端能力，赛意信...

AI快讯

3个月前

革命性GRPO算法：低显存大模型训练的新里程碑

Unsloth发布的GRPO算法革新了大模型训练方式，仅需5GB VRAM即可训练1.5B大模型，显存占用减少90%，资源利用率提升300%。该算法支持超长文本学习，采用FP8 KV...

AI快讯

3个月前

DeepSeek与EFlops：生成式AI背后的算力革命

本文探讨了DeepSeek在生成式AI领域的突破及其对算力需求的深远影响。文章指出，尽管DeepSeek降低了大模型训练成本，但部署和推理仍面临高算力需求。国内用户...

AI快讯

3个月前

标签：大模型训练

视觉自回归建模：技术突破与争议背后的故事

FP8混合精度框架：DeepSeek-R1模型的技术革新与行业影响

SenseCore万卡集群：商汤科技引领AI基础设施新纪元

Groq LPU：AI算力的新星与未来挑战

A100 GPU：DeepSeek背后的算力引擎与AI革命

DeepSeek：AI Infra领域的颠覆者与创新者

Ampere架构GPU集群：字节跳动AI战略的核心算力引擎

AI工具链驱动制造业数智化变革：赛意信息引领行业新趋势

革命性GRPO算法：低显存大模型训练的新里程碑

DeepSeek与EFlops：生成式AI背后的算力革命

通过字节跳动免费使用满血可联网DeepSeek R1

现在注册，立即送145元代金券