低成本训练 | AI-magic

DeepSeek-V3：低成本高效率的AI大模型新标杆

DeepSeek-V3作为一款采用混合专家（MoE）架构的大模型，以其低成本、高效率和高性能引发业界关注。本文将深入探讨其技术优势、训练细节及在多个领域的应用表现。

AI快讯

2个月前

DeepSeek V2：中国大模型技术创新的典范

DeepSeek V2作为中国大模型技术创新的代表，通过混合专家模型（MoE）和多头潜在注意力（MLA）技术，显著降低了训练成本并提升了推理速度。其236B参数规模、21...

AI快讯

2个月前

DeepSeek R1：低成本、高性能的AI新星，如何颠覆大模型格局？

DeepSeek R1以其低成本、高性能和开源特性，正在颠覆AI大模型领域。通过蒸馏技术和FP8运算，它实现了训练成本的大幅降低，同时在数学、编程和中文理解上表现...

AI快讯

2个月前

MiniMind：低成本训练超小语言模型的DPO算法实践

GitHub上热门的AI项目MiniMind，通过DPO算法等先进技术，仅用3块钱成本和2小时训练出25.8M的超小语言模型。该项目开源了极简结构和大模型的全过程代码，为AI...

AI快讯

3个月前

MiniMind：低成本、高效率的AI模型训练新标杆

GitHub上的热门项目MiniMind，仅用3块钱和2小时训练出25.8M的超小语言模型，开源了大模型的极简结构和多种算法，拓展了视觉多模态的MiniMind-V，所有核心算法...

AI快讯

3个月前

多头潜在注意力机制：深度求索的低成本AI革命

中国人工智能初创企业深度求索通过开源多头潜在注意力机制（MLA）等创新技术，实现了低成本、高性能的AI模型训练和推理。其开源项目FlashMLA和DeepEP在芯片性...

AI快讯

3个月前

DeepSeek-V3：低成本高性能AI大模型的创新之路

深度求索公司推出的DeepSeek-V3大模型凭借其低成本、高性能的特点，赢得了开源社区的广泛赞誉。通过开源FlashMLA和DeepEP等项目，该公司展示了其在芯片性能优...

AI快讯

3个月前

DeepSeek R2即将发布：AI行业的又一次革命性突破

DeepSeek R2模型的发布备受瞩目，其不仅在编程能力和多语言推理方面有显著提升，还延续了低成本、高性能的传统。本文将深入探讨R2模型的技术创新、行业影响及...

AI快讯

3个月前

DeepSeek R1：开源AI模型的崛起与市场影响

DeepSeek公司推出的开源推理模型DeepSeek R1和v3以其低廉的价格和卓越的性能引发市场关注。DeepSeek R1在AI竞技场排行榜上高居第三，与ChatGPT-4o并列，训练...

AI快讯

3个月前

DeepSeek的MoE架构：AI领域的技术革新与成本优化

本文深入探讨了DeepSeek在AI领域的技术革新，特别是其混合专家架构（MoE）的创新点。文章详细介绍了DeepSeek如何通过MoE架构实现低成本训练、工程优化和架构...

AI快讯

3个月前

标签：低成本训练

DeepSeek-V3：低成本高效率的AI大模型新标杆

DeepSeek V2：中国大模型技术创新的典范

DeepSeek R1：低成本、高性能的AI新星，如何颠覆大模型格局？

MiniMind：低成本训练超小语言模型的DPO算法实践

MiniMind：低成本、高效率的AI模型训练新标杆

多头潜在注意力机制：深度求索的低成本AI革命

DeepSeek-V3：低成本高性能AI大模型的创新之路

DeepSeek R2即将发布：AI行业的又一次革命性突破

DeepSeek R1：开源AI模型的崛起与市场影响

DeepSeek的MoE架构：AI领域的技术革新与成本优化

通过字节跳动免费使用满血可联网DeepSeek R1

现在注册，立即送145元代金券