AI交流(进群备注:MNBVC)

MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。
MNBVC的特点:
1. 收集多种类型的中文文本数据
2. 超大规模中文语料集
3. 涵盖主流文化与小众文化
4. 包含火星文的数据
5. 支持社区参与和协作
6. 适合用于训练大规模语言模型
MNBVC的功能:
1. 参与数据收集和清洗工作
2. 使用清洗好的分类数据进行研究
3. 贡献自己的数据或资源
4. 用于训练聊天机器人
5. 支持自然语言处理研究
6. 用于文本生成任务
7. 适用于文化研究与分析
相关导航
暂无评论...