CSTS是一个专为中文设计的自然语言推理与语义相似度数据集,包含多种推理场景,提供丰富的标注数据,旨在支持机器学习和深度学习模型的训练,帮助提升中文文本的理解和处理能力。
基于Triton语言实现的Flash Attention, 采用OpenAI团队发布的Fused Attention代码,优化了注意力机制,适用于大规模数据处理,支持快速训练和推理,兼容多种深度学习框架。
ULLME是一个统一的框架,旨在通过生成增强学习优化大型语言模型的嵌入,支持双向注意力机制以及多种微调策略,帮助提升模型的性能和效果。
MiniRBT (中文小型预训练模型) 是由iFLYTEK开发的一个小型中文预训练模型,旨在提供高效的自然语言处理能力。
PaLI-3是一个相对更小、更快且更强大的视觉语言模型,其性能表现优于大小为其10倍的类似模型,专注于多模态任务的高效处理。
该项目旨在实现稀疏和稳健的预训练语言模型,以提高语言理解的能力和效率。
TokenLearn 静态词嵌入:一种预训练模型2Vec的方法,专注于提升自然语言处理中词嵌入的静态特性,使其更适用于各种下游任务。
Chain-of-Note项目旨在提升检索增强型语言模型的表现,主要通过生成顺序阅读注释来评估文档的相关性,从而改进语言模型的回复质量,并减少因不可靠检索信息带来的误导性回复。
Llama 2的中文微调版本,旨在提高中文文本生成和理解的能力。该模型基于Llama 2架构,经过专门的中文数据训练,能够更好地处理各种中文语境,适用于对话系统、内容创作、文本分析等多种应用场景。
Alpaca 是斯坦福大学基于 LLaMa-7B 训练的开源语言模型,其性能可与 173B 的 GPT-3.5 媲美。通过优化数据集,Alpaca 能够在微调 7B 和 13B 参数的语言模型时显著提高效果。