PreSelect是一款高效预训练数据选择工具,旨在通过智能筛选高质量数据,显著降低语言模型训练的计算需求。它基于fastText的轻量级评分器,能够快速评估数据质量,并提供100B的高质量数据集,直接用于模型训练。使用PreSelect,仅需30B数据即可达到传统300B数据训练的效果,计算需求降低10倍,极大提升了训练效率。