Crawl4LLM是由清华和卡内基梅隆大学联合开源的智能爬虫系统,旨在解决LLM预训练数据爬取效率低下的问题。通过优先爬取对LLM预训练更有影响力的网页,显著提升了数据质量和爬取效率,并减少了不必要的网络资源消耗。该系统支持多种爬取模式,提供完整工具链,包括爬取网页、提取文档ID、获取文档内容,并可直接与DCLM预训练框架对接,简化预训练流程。