该研究开发了一种简化的自我训练方法,称为ReST^EM,该方法使用期望最大化(expectation maximization)来微调语言大模型(LLM),表现优于仅依赖人类数据进行微调的策略。
LLM-zero2hero是一个高度解耦的微调项目,旨在支持大语言模型的自定义训练、验证和推理过程。它提供了全量微调和LoRA微调的能力,使用户能够灵活地调整模型以满足特定需求。
LLM微调中心,用于将各种大型语言模型进行微调,以适应个性化用例,提供丰富的微调脚本和最新研究成果,支持模型部署及自定义微调,旨在提高模型在特定数据集上的性能。
大型语言模型微调用高质量数据集大列表,帮助提升模型的准确性和多样性,使其更好地理解和执行指令。该项目提供了丰富的高质量数据集,支持不同语言模型的微调需求,适合研究人员和开发者使用。
该项目总结了大语言模型的微调技术,探讨了指令微调和对齐微调的方法,旨在提升模型在特定任务上的表现。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。
WizardLM是一个基于Code Llama微调的模型,专注于代码生成和相关任务,支持多种编程语言的代码编写与理解,提供模型的测试地址和下载链接,经过简单测试表现良好。
VICReg(Variance-Invariance-Covariance Regularization)是一种自监督学习框架,通过方差、不变性和协方差正则化来改善特征表示,旨在无标签数据的情况下训练模型并提高无监督任务的表现。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型