TongGu-LLM 是一个由华南理工大学深层学习与视觉计算实验室(SCUT-DLVCLab)开发的大型语言模型,专注于古典中文的理解和处理。该模型基于 Baichuan2-7B-Base 模型,通过多阶段指令微调和冗余感知调整(RAT)方法,增强了与古典中文相关的下游任务性能。其训练数据包括2.41亿个古典中文文本和400万古典中文对话数据,功能涵盖古文标点、翻译、赏析和诗词创作,适用于非商业研究。