所有AI工具AI学习网站AI开发框架AI开源项目

PreSelect开源项目 – 高效预训练数据选择工具

PreSelect是一款高效预训练数据选择工具,旨在通过智能筛选高质量数据,显著降低语言模型训练的计算需求。它基于fastText的轻量级评分器,能够快速评估数据质量,并提供100B的高质...

标签:

AI交流(进群备注:PreSelect)

PreSelect是一款高效预训练数据选择工具,旨在通过智能筛选高质量数据,显著降低语言模型训练的计算需求。它基于fastText的轻量级评分器,能够快速评估数据质量,并提供100B的高质量数据集,直接用于模型训练。使用PreSelect,仅需30B数据即可达到传统300B数据训练的效果,计算需求降低10倍,极大提升了训练效率。

PreSelect的特点:

  • 1. 仅用30B数据即可达到300B数据训练的效果,计算需求降低10倍
  • 2. 基于fastText的轻量级评分器,高效筛选高质量数据
  • 3. 提供100B高质量数据集,直接可用

PreSelect的功能:

  • 1. 用于语言模型的预训练数据选择
  • 2. 降低大规模语言模型训练的计算需求
  • 3. 提供高质量数据集,直接用于模型训练

相关导航

暂无评论

暂无评论...