ModernBert模型 – 替代BERT的高效编码器模型

ModernBert是由Hugging Face、NVIDIA和Johns Hopkins University联合开发的新型编码器模型，旨在取代原始BERT模型。它显著提升了效率，支持长达8192个token的上下文处理，并提供基础版（149百万参数）和大型版（395百万参数）两个版本。ModernBert在分类、检索和问答任务中表现出色，特别适合处理复杂任务。

ModernBert的特点:

1. 支持8192 tokens的长上下文处理
2. 训练于2万亿独特token的多样化语料库
3. 不使用token type IDs，采用旋转位置嵌入（RoPE）
4. 在GLUE基准测试中击败DeBERTaV3，处理速度快2-4倍
5. 在NVIDIA RTX 4090上处理可变长度输入比其他模型快

ModernBert的功能:

1. 通过pip安装，支持GPU效率优化
2. 使用AutoModelForMaskedLM进行掩码语言建模
3. 通过pipeline(“fill-mask”)执行填空任务
4. 适用于分类、检索、问答等NLP任务
5. 可针对特定应用进行微调，如AI护栏

相关导航

Chinese-Mixtral-8x7B开源项目 – 中文增量预训练的强大模型

中文Mixtral-8x7B，基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，旨在提升中文文本生成和理解能力，支持多种自然语言处理任务。

ModernBERT开源项目 – 现代化的BERT模型

ModernBERT 是一个开源项目，旨在通过架构变更和扩展将 BERT 带入现代化。它引入了 FlexBERT，一种模块化编码器构建方法，并依赖于 YAML 配置文件来构建模型。ModernBERT 扩展了 MosaicBERT 的功能，包括 Flash Attention 2，并在各种 NLP 任务中显示出比传统 BERT 模型更高的准确性和效率。该项目提供了用于预训练和评估的代码，并支持与 PyLate 和 Sentence Transformers 集成的检索模型训练和评估。

Forgetting Transformer (FoX)开源 – 改进的Transformer，增强长文本处理

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型，通过在 Softmax 注意力机制中加入遗忘门，增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能，同时保持长上下文处理能力，并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数，命名为“遗忘注意力”（Forgetting Attention）。研究表明，FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer，而在长上下文下游任务上表现相当。此外，FoX 兼容 Flash Attention 算法，且无需位置嵌入，保留了 Transformer 相对于循环序列模型（如 Mamba-2、HGRN2 和 DeltaNet）在长上下文能力上的优势。

LLaMA开源项目 – Facebook开源的大语言模型

LLaMA是Facebook研究开发的一款先进语言模型，旨在处理多种自然语言处理任务，声称在性能上优于GPT-3。它具备高质量文本生成能力，支持多种规模以满足不同的部署需求，同时采用高效的训练技术，能够先进地处理上下文信息。

MiniRBT开源项目 – 小型中文预训练模型，提升自然语言处理能力

MiniRBT (中文小型预训练模型) 是由iFLYTEK开发的一个小型中文预训练模型，旨在提供高效的自然语言处理能力。

OpenChatKit官网 – 开源聊天机器人项目

OpenChatKit是一个开源项目，提供强大的基础以创建专用和通用的聊天机器人，适用于各种应用场景。

DistilBERT开源项目 – 轻量级高性能BERT模型

DistilBERT是一款基于BERT的轻量级Transformer模型，通过蒸馏技术显著减少了模型的大小和计算复杂度，同时保持了高性能。它特别适用于资源有限的环境，如移动设备或嵌入式系统，能够在文本分类、命名实体识别和问答系统等任务中表现出色。

GTS Engine开源项目 – 开箱即用的强大自然语言理解引擎

GTS引擎（GTS-Engine）是一款开箱即用且性能强大的自然语言理解引擎，聚焦于小样本任务，能够仅用小样本就能自动化生产NLP模型。

mamba-minimal开源项目 – Mamba的轻量化实现

一个Mamba的最小化实现。Mamba是CMU和普林斯顿的研究成功。这种SSM架构在语言建模上与Transformers不相上下，而且还能线性扩展，同时具有5倍的推理吞吐量。

LangChain开源项目 – 基于LLM开发应用的框架

LangChain是一个用于构建基于大型语言模型（LLM）应用的框架，它简化了复杂任务的实现，并支持多种集成和扩展。

ReaderLM-v2官网 – 说曹操曹操闪现，V2来了

ReaderLM-v2是一款增强文本理解能力的语言模型，支持多种语言，能够快速响应并高效提取信息。

plm-nlp-code开源项目 – 自然语言处理的预训练模型代码

《自然语言处理：基于预训练模型的方法》随书代码，提供多种基于预训练模型的自然语言处理方法，支持文本分类、命名实体识别、问答等任务，包含详细的使用示例和文档，易于扩展和集成到其他项目中。

Nanbeige-16B开源项目 – 强大的160亿参数大语言模型

Nanbeige-16B（南北阁-16B）是南北阁大模型实验室研发的160亿参数规模的大语言模型，采用了2.5T Tokens进行预训练，数据包含大量互联网高质量语料、各类书籍、代码等领域脱敏文本，在各个权威测评数据集上都取得了不错的效果。本次发布包含有 Base、Chat 以及扩展上下文长度的 Base-32k、Chat-32k 版本。

DeepSeek LLM开源项目 – 一款先进的双语语言模型

DeepSeek LLM是一款拥有670亿个参数的先进语言模型，通过庞大的包含2万亿标记的数据集在英语和中文上进行了从零开始的训练，旨在提供高质量的自然语言处理能力。