Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

ModernBert是由Hugging Face、NVIDIA和Johns Hopkins University联合开发的新型编码器模型,旨在取代原始BERT模型。它显著提升了效率,支持长达8192个token的上下文处理,并提供基础版(149百万参数)和大型版(395百万参数)两个版本。ModernBert在分类、检索和问答任务中表现出色,特别适合处理复杂任务。
ModernBert的特点:
- 1. 支持8192 tokens的长上下文处理
- 2. 训练于2万亿独特token的多样化语料库
- 3. 不使用token type IDs,采用旋转位置嵌入(RoPE)
- 4. 在GLUE基准测试中击败DeBERTaV3,处理速度快2-4倍
- 5. 在NVIDIA RTX 4090上处理可变长度输入比其他模型快
ModernBert的功能:
- 1. 通过pip安装,支持GPU效率优化
- 2. 使用AutoModelForMaskedLM进行掩码语言建模
- 3. 通过pipeline(“fill-mask”)执行填空任务
- 4. 适用于分类、检索、问答等NLP任务
- 5. 可针对特定应用进行微调,如AI护栏
相关导航

Forgetting Transformer (FoX)开源 – 改进的Transformer,增强长文本处理
Forgetting Transformer (FoX) 是一种改进的 Transformer 模型,通过在 Softmax 注意力机制中加入遗忘门,增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能,同时保持长上下文处理能力,并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数,命名为“遗忘注意力”(Forgetting Attention)。研究表明,FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer,而在长上下文下游任务上表现相当。此外,FoX 兼容 Flash Attention 算法,且无需位置嵌入,保留了 Transformer 相对于循环序列模型(如 Mamba-2、HGRN2 和 DeltaNet)在长上下文能力上的优势。
暂无评论...