Black Forest Labs的Flux模型训练脚本集,支持LoRA和ControlNet模型的微调,使用DeepSpeed进行高效训练,适用于512x512及1024x1024图片尺寸,提供下载链接和训练配置文件
专注于训练和微调中等大小 GPT 模型的最简仓库,是 karpathy/nanoGPT 的一个分支,并提供了最大更新参数化(muP)的最小实现,旨在简化用户的使用体验和模型的优化过程。
Qwen2-VL微调工具:用于微调开源多模态大模型Qwen2-VL,支持单GPU和多GPU训练,提供简易上手的微调脚本和数据,旨在帮助开发者快速进行模型微调或再训练
一种基于Llama-2模型使用自己数据微调的方法,A100显卡就可以对70B模型微调。
Kansformers是一个基于知识增强网络(KANs)的Transformer架构,旨在提高自然语言处理任务的性能。它提供多种预训练模型,支持针对特定任务的微调,并具备高效的模型推理能力和灵活的API设计,适合多种应用场景。
CogVideoX Factory 是一个在 24GB GPU 内存下对 Cog 系列视频模型进行微调的项目,旨在实现高效的自定义视频生成,支持多种分辨率,提供内存优化的微调脚本和基于 TorchAO 和 DeepSpeed 的训练方式,适用于多种深度学习工作流。
一种特殊的神经网络架构,可以在不增加推理成本的情况下,为语言大模型(LLM)增加可学习的参数。该研究发现模型比密集模型更能从指令调优中获益,因此提出将MoE和指令调优结合起来。