长文本推理能力的突破：DeepSeek与月之暗面的技术革新

AI快讯4个月前发布 admin

0 0

长文本推理能力的技术革新

近年来，随着人工智能技术的快速发展，长文本推理能力成为了AI大模型领域的重要研究方向。DeepSeek与月之暗面作为国内领先的AI公司，分别提出了NSA（原生稀疏注意力）和MoBA（块注意力混合）架构，为长文本处理带来了新的突破。

DeepSeek的NSA架构

DeepSeek提出的NSA架构通过以下三个环节显著提升了长文本处理的效率：

语义压缩：将文本划分为块，保留全局语义的同时缩减序列长度，降低计算复杂度。
动态选择：通过得分机制选择最相关的词进行细粒度计算，减少计算量。
上下文信息保留：通过硬件级显存复用技术，降低内存访问频次，保持连贯性。

这些优化使得NSA在处理64k标记序列时，速度提高了11.6倍，训练效率也大幅提升。

月之暗面的MoBA架构

月之暗面的MoBA架构则采用了混合专家系统（MoE）的原理，将其应用于注意力机制中。MoBA的主要特点包括：

块划分与路由策略：将上下文划分为块，通过门控网络选择最相关的块进行计算。
无参数门控机制：引入无参数top-k门控机制，确保模型只关注最具信息量的内容。
完全注意力与稀疏注意力的无缝切换：MoBA设计了一套灵活切换机制，使模型能够在完全注意力和稀疏注意力模式之间自由切换。

MoBA在处理1M token的测试中，比全注意力快了6.5倍，到10M token时，则提速16倍。

技术竞争与未来发展方向

DeepSeek与月之暗面的技术竞争不仅体现在架构创新上，还体现在商业化策略上。DeepSeek通过开源模型带动生态发展，迅速吸引了大量用户，而月之暗面则更注重商业化布局和市场推广。然而，随着DeepSeek的崛起，月之暗面也在积极调整策略，将“持续拿到SOTA结果”确定为当前最重要的工作目标，并计划在2025年继续强化多模态和长文本推理能力。