Native Sparse Attention (NSA)官网 – 加速注意力计算的稀疏技术

原生稀疏注意力（Native Sparse Attention, NSA）技术通过让模型在计算注意力时只关注最重要的信息，大幅减少了计算量，从而加速了注意力计算的速度。NSA 技术在性能上实现了效率与精度的双重提升，尤其在处理长文本序列时表现出色。

Native Sparse Attention (NSA)的特点:

1. 大幅减少计算量，加速注意力计算速度
2. 在 64k 长文本序列上，解码速度实现高达 11.6 倍的加速
3. 前向传播和反向传播分别加速了 9.0 倍和 6.0 倍
4. 预训练模型在通用基准测试中性能与全注意力模型持平甚至略有超出
5. 在长文本任务和推理能力评估中显著优于全注意力模型及其他稀疏注意力方法

Native Sparse Attention (NSA)的功能:

1. 用于加速长文本序列的注意力计算
2. 提升多跳问答任务中的推理能力
3. 优化长文本任务的模型性能
4. 在需要复杂推理的任务中增强模型表现

相关导航

ChatGPT o3官网 – 更强大的推理模型

GPT O3是一个比O1更强大的“推理完整模型”，超长的上下文支持，复杂推理任务，支持超长代码库的生成与调试

Can We Tune Together开源项目 – 组合多种NLP语言模型

该项目旨在通过结合多种自然语言处理模型，探索优化模型性能的新方法。它具有强大的可扩展性，适用于多种应用场景，并提供了用户友好的接口。

BakLLaVA开源项目 – 多模态能力增强的语言模型

将SOTA多模态能力融入语言模型，改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。

ChatGPT Prompt Splitter官网 – 将长文本切分为小块

ChatGPT Prompt Splitter 是一个实用工具，旨在帮助用户将过长的提示或文本分割成更小的部分，从而避免字符限制带来的困扰，方便进行信息提取和总结。无论是视频转录还是长文本摘要，这个工具都能高效地将信息浓缩为可管理的块，提升用户的工作效率。

Argilla Cookbook开源项目 – 提供Argilla工具的简单示例

一个提供使用Argilla工具构建AI的简单示例的项目，主要功能包括数据标注、模型性能优化等，特色在于通过Jupyter Notebook形式提供直观的操作指导

Awesome-LLM-Self-Improvement开源项目 – 助力大型语言模型自我改进

精选大型语言模型在推理时自我改进的研究论文列表，助力模型性能提升。该项目汇集了大量优秀研究，提供最新的调查结果，旨在帮助研究者和开发者优化大型语言模型的性能。

XuanYuan-70B开源项目 – 中文金融大模型，增强多种应用

XuanYuan-70B 是基于Llama2-70B模型进行中文增强的一系列金融大模型，包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型。

Native Sparse Attention开源项目 – 高效实现原生稀疏注意力

Native Sparse Attention是一个高效实现原生稀疏注意力的Triton代码库，专注于在深度学习模型中优化注意力机制。通过硬件对齐优化和动态选择稀疏块，显著提升了性能，比FlashAttention更快，性能提升高达数倍。适用于需要高效处理稀疏数据的场景，并在AI创造营等项目中得到应用。

HiP Attention开源 – 高效无训练长文本注意力机制

HiP Attention 是一种无需额外训练的后训练注意力机制，专为提升长文本处理效率设计。它通过分层剪枝技术实现子二次方复杂度，支持单GPU处理300万token的上下文长度，速度提升7.24倍，显著降低计算成本。项目基于OpenAI Triton实现，可无缝集成现有模型架构（如SGlang），适用于资源受限环境下的超长序列处理。

Chinese Mixtral开源项目 – 中文混合专家大模型

中文Mixtral混合专家大模型，基于Mistral.ai发布的Mixtral模型，经过中文增量训练和指令精调，支持长文本处理与多种应用框架。

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis-探讨大语言模型训练epoch设置的影响

本项目研究了大语言模型中的epoch次数设置问题，深入探讨训练epoch数量对模型性能的影响，以及在不同数据集上epoch数量的变化如何影响训练的充分性和效果。

LongRoPE-扩展LLM上下文窗口至200万Tokens

LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens，显著提升长文本处理能力，同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值，以及采用渐进扩展策略，在256k训练长度内仅需1k微调步骤，从而实现高效的模型训练与优化。

Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

利用语言大模型中的标签变化进行 zero-shot 文本分类-基于标签变化的零样本分类

该项目探讨了五种语言大模型在四种语言的五个任务上的表现差异，通过特定方法优化性能，虽然相较于传统方法仍有不足，尤其在处理敏感问题时需注意偏差。尽管LLM在某些方面表现出优势，仍无法完全取代人类标注。文章还讨论了聚合模型标注与人类标注在速度、准确性、成本和偏见方面的权衡。

RetNet-LLM基础架构，兼顾性能和成本

提出 RetNet 作为 LLM 的基础架构，同时实现训练并行性、低成本推理和良好性能。