通义千问-7B是阿里云研发的通义千问大模型系列的70亿参数规模的模型,基于Transformer的大语言模型,经过超大规模的预训练数据训练,覆盖广泛,包括网络文本、专业书籍、代码等。
基于GPT-2模型的中文文本生成项目,旨在为中文自然语言处理提供强大的文本生成能力,支持预训练和fine-tuning,适用于多种场景,如创作、对话等。
Auto-GPT-ZH是中文版AutoGPT,旨在提供一个中文环境下的自动化GPT应用,支持多种API扩展,用户可以自定义任务和目标,具有高效的文本生成和对话能力,界面友好,适合各种中文场景的应用。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。