Chinese-Tiny-LLM开源项目 – 专注于中文的大语言模型
Chinese-Tiny-LLM(CT-LLM)是一个拥有20亿参数的大语言模型,主要在12000亿中文语料库上进行预训练,其中包括8000亿中文、3000亿英文和1000亿代码的混合数据。该模型通过中文数据进行预训练和微调,显著提升了中文处理能力,并通过对齐技术进一步优化。CT-LLM在CHC-Bench中文任务中表现出色,同时在英文任务中也表现出良好的适应性。项目开源了训练过程、数据处理方法以及大规模中文预训练语料库(MAP-CC),并引入了中文难例基准(CHC-Bench),旨在推动更包容和适应性强的语言模型研究。