所有AI工具AI学习网站AI开发框架AI开源项目

Chinese-Tiny-LLM开源项目 – 专注于中文的大语言模型

Chinese-Tiny-LLM(CT-LLM)是一个拥有20亿参数的大语言模型,主要在12000亿中文语料库上进行预训练,其中包括8000亿中文、3000亿英文和1000亿代码的混合数据。该模型通过中文数据...

标签:

AI交流(进群备注:Chinese-Tiny-LLM)

Chinese-Tiny-LLM(CT-LLM)是一个拥有20亿参数的大语言模型,主要在12000亿中文语料库上进行预训练,其中包括8000亿中文、3000亿英文和1000亿代码的混合数据。该模型通过中文数据进行预训练和微调,显著提升了中文处理能力,并通过对齐技术进一步优化。CT-LLM在CHC-Bench中文任务中表现出色,同时在英文任务中也表现出良好的适应性。项目开源了训练过程、数据处理方法以及大规模中文预训练语料库(MAP-CC),并引入了中文难例基准(CHC-Bench),旨在推动更包容和适应性强的语言模型研究。

Chinese-Tiny-LLM的特点:

  • 1. 专注于中文的20亿参数大语言模型
  • 2. 在12000亿中文语料库上进行预训练
  • 3. 包含8000亿中文、3000亿英文和1000亿代码的混合数据
  • 4. 通过对齐技术优化中文处理能力
  • 5. 开源训练过程和数据处理方法
  • 6. 引入中文难例基准(CHC-Bench)

Chinese-Tiny-LLM的功能:

  • 1. 用于中文自然语言处理任务
  • 2. 进行中文文本生成和理解
  • 3. 用于多语言模型的研究和开发
  • 4. 作为中文语言模型的基准测试工具
  • 5. 用于学术研究和教育目的

相关导航

暂无评论

暂无评论...