AI交流(进群备注:Native Sparse Attention (NSA))

原生稀疏注意力(Native Sparse Attention, NSA)技术通过让模型在计算注意力时只关注最重要的信息,大幅减少了计算量,从而加速了注意力计算的速度。NSA 技术在性能上实现了效率与精度的双重提升,尤其在处理长文本序列时表现出色。
Native Sparse Attention (NSA)的特点:
- 1. 大幅减少计算量,加速注意力计算速度
- 2. 在 64k 长文本序列上,解码速度实现高达 11.6 倍的加速
- 3. 前向传播和反向传播分别加速了 9.0 倍和 6.0 倍
- 4. 预训练模型在通用基准测试中性能与全注意力模型持平甚至略有超出
- 5. 在长文本任务和推理能力评估中显著优于全注意力模型及其他稀疏注意力方法
Native Sparse Attention (NSA)的功能:
- 1. 用于加速长文本序列的注意力计算
- 2. 提升多跳问答任务中的推理能力
- 3. 优化长文本任务的模型性能
- 4. 在需要复杂推理的任务中增强模型表现
相关导航

Forgetting Transformer (FoX)开源 – 改进的Transformer,增强长文本处理
Forgetting Transformer (FoX) 是一种改进的 Transformer 模型,通过在 Softmax 注意力机制中加入遗忘门,增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能,同时保持长上下文处理能力,并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数,命名为“遗忘注意力”(Forgetting Attention)。研究表明,FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer,而在长上下文下游任务上表现相当。此外,FoX 兼容 Flash Attention 算法,且无需位置嵌入,保留了 Transformer 相对于循环序列模型(如 Mamba-2、HGRN2 和 DeltaNet)在长上下文能力上的优势。
暂无评论...