所有AI工具AI开发框架AI开源项目AI编程工具

opc_data_filtering开源项目 – 代码数据清洗框架

opc_data_filtering是一个专为大规模代码预训练语料库设计的启发式过滤框架,旨在通过高效的规则配置和灵活的扩展性,精准清洗代码数据,确保数据质量。该框架支持多种编程语言,...

标签:

AI交流(进群备注:opc_data_filtering)

opc_data_filtering是一个专为大规模代码预训练语料库设计的启发式过滤框架,旨在通过高效的规则配置和灵活的扩展性,精准清洗代码数据,确保数据质量。该框架支持多种编程语言,并能够快速适配不同数据集,满足多样化的过滤需求。

opc_data_filtering的特点:

  • 1. 超过100条过滤规则,精准清洗代码数据
  • 2. 灵活的规则配置,支持多种编程语言
  • 3. 易于扩展,可快速适配不同数据集

opc_data_filtering的功能:

  • 1. 用于清洗大规模代码预训练语料库
  • 2. 支持多种编程语言的代码数据过滤
  • 3. 快速适配不同数据集的过滤需求

相关导航

暂无评论

暂无评论...