所有AI工具AI其他工具AI学习网站AI开源项目

MNBVC开源项目 – 超大规模中文语料数据集

MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wik...

标签:

AI交流(进群备注:MNBVC)

MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。
MNBVC的特点:
1. 收集多种类型的中文文本数据
2. 超大规模中文语料集
3. 涵盖主流文化与小众文化
4. 包含火星文的数据
5. 支持社区参与和协作
6. 适合用于训练大规模语言模型

MNBVC的功能:
1. 参与数据收集和清洗工作
2. 使用清洗好的分类数据进行研究
3. 贡献自己的数据或资源
4. 用于训练聊天机器人
5. 支持自然语言处理研究
6. 用于文本生成任务
7. 适用于文化研究与分析

相关导航

暂无评论

暂无评论...