Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens,显著提升长文本处理能力,同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值,以及采用渐进扩展策略,在256k训练长度内仅需1k微调步骤,从而实现高效的模型训练与优化。
LongRoPE的特点:
1. 扩展上下文窗口至2048k Tokens
2. 在256k训练长度内仅需1k微调步骤
3. 保持原始短上下文窗口的性能
4. 引入有效的搜索识别和位置插值
5. 采用渐进扩展策略
LongRoPE的功能:
1. 在大型语言模型中进行长文本处理
2. 提高微调模型的上下文理解能力
3. 在LLaMA2和Mistral上进行各种任务
4. 实现更高效的模型训练与优化
相关导航

Forgetting Transformer (FoX)开源 – 改进的Transformer,增强长文本处理
Forgetting Transformer (FoX) 是一种改进的 Transformer 模型,通过在 Softmax 注意力机制中加入遗忘门,增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能,同时保持长上下文处理能力,并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数,命名为“遗忘注意力”(Forgetting Attention)。研究表明,FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer,而在长上下文下游任务上表现相当。此外,FoX 兼容 Flash Attention 算法,且无需位置嵌入,保留了 Transformer 相对于循环序列模型(如 Mamba-2、HGRN2 和 DeltaNet)在长上下文能力上的优势。
暂无评论...