AI交流(进群备注:ModernBERT)

ModernBERT 是一个开源项目,旨在通过架构变更和扩展将 BERT 带入现代化。它引入了 FlexBERT,一种模块化编码器构建方法,并依赖于 YAML 配置文件来构建模型。ModernBERT 扩展了 MosaicBERT 的功能,包括 Flash Attention 2,并在各种 NLP 任务中显示出比传统 BERT 模型更高的准确性和效率。该项目提供了用于预训练和评估的代码,并支持与 PyLate 和 Sentence Transformers 集成的检索模型训练和评估。
ModernBERT的特点:
- 1. 模块化编码器构建方法 FlexBERT
- 2. 依赖于 YAML 配置文件构建模型
- 3. 支持 Flash Attention 2
- 4. 在多种 NLP 任务中表现出更高的准确性和效率
- 5. 提供预训练和评估代码
- 6. 支持与 PyLate 和 Sentence Transformers 集成的检索模型
ModernBERT的功能:
- 1. 使用 YAML 配置文件进行模型训练
- 2. 通过 composer 框架进行模型训练
- 3. 使用 StreamingTextDataset 或 NoStreamingDataset 进行数据处理
- 4. 进行 GLUE 任务评估
- 5. 训练和评估基于 ModernBERT 的 ColBERT 模型
- 6. 训练和评估基于 ModernBERT 的密集检索模型
相关导航

MiniMind开源项目 – 低成本快速训练超小语言模型
MiniMind 是一个开源 AI 项目,旨在从零开始,以极低的成本和极短的时间训练出超小语言模型。项目涵盖了从数据集清洗到模型训练的全过程,并提供了多种先进的算法和模型结构。通过仅需 3 块钱成本和 2 小时,即可训练出 25.8M 的超小语言模型,最小版本体积是 GPT-3 的 1/7000,适合普通个人 GPU 快速训练。项目还拓展了视觉多模态的 VLM: MiniMind-V,所有核心算法代码均从 0 使用 PyTorch 原生重构,不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现,也是一个入门 LLM 的教程。
暂无评论...