MoBA开源项目 – 提升长文本处理效率的注意力机制
MoBA(Mixture of Block Attention)是一种新型注意力机制,旨在提高大型语言模型(LLM)处理长文本上下文的效率和性能。它结合了稀疏注意力机制和块操作,通过将长文本分成多个块进行处理,减少了计算量。MoBA支持1M上下文长度,并采用参数无偏的Top-k门控机制,精准筛选关键信息。此外,MoBA可以无缝切换全注意力与稀疏注意力模式,在性能与效率之间取得平衡。MoBA兼容Transformer架构,可以替代标准注意力机制,嵌入现有Transformer模型中,提升长文本的处理效率。