Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型,通过在 Softmax 注意力机制中加入遗忘门,增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能,同时保持长上下文处理能力,并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数,命名为“遗忘注意力”(Forgetting Attention)。研究表明,FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer,而在长上下文下游任务上表现相当。此外,FoX 兼容 Flash Attention 算法,且无需位置嵌入,保留了 Transformer 相对于循环序列模型(如 Mamba-2、HGRN2 和 DeltaNet)在长上下文能力上的优势。
Forgetting Transformer (FoX)的特点:
- 1. 遗忘门集成:在 Softmax 注意力中加入遗忘门,动态管理注意力权重。
- 2. 性能提升:在长文本建模、长度外推和短文本任务上表现优于标准 Transformer。
- 3. 长上下文表现:在长上下文下游任务上与标准 Transformer 表现相当。
- 4. 兼容性:与 Flash Attention 算法兼容,支持高效计算。
- 5. 简化设计:无需位置嵌入,减少模型复杂性。
- 6. 长上下文能力:通过“针在干草堆”测试等分析,显示出相对于循环模型的优越长上下文处理能力。
- 7. Pro 块设计:引入“Pro”块,结合循环序列模型的常见组件,显著提升 FoX 和 Transformer 的性能。
Forgetting Transformer (FoX)的功能:
- 1. 语言建模:特别适用于语言建模和其他序列任务,如文本生成和序列分类。
- 2. 长文本处理:通过遗忘门管理长序列,过滤掉不相关的信息,优化注意力分配。
- 3. 代码获取:用户可通过 GitHub 仓库获取官方 PyTorch 实现。
- 4. 安装与使用:仓库提供安装说明,支持作为 Python 包安装(推荐 Python 3.10 以上),也可克隆仓库进行编辑式安装。
- 5. 模型训练与评估:提供 LongCrawl64 数据集的训练代码,eval/ 子目录下评估代码,支持恢复训练,保存为 Hugging Face 格式。
相关导航
暂无评论...