FluxKits是一个包含Flux-mini和Flux-NPU的工具集,其中Flux-mini是一个3.2B参数的文生图模型,经过蒸馏自12B的Flux-dev模型,显著降低了硬件需求;而Flux-NPU则是支持在NPU设备上运行Flux模型的工具库。
Unsloth 是一个用于训练和推理大型语言模型(LLM)的工具,特别适用于使用 DeepSeek 的 GRPO 算法进行训练。它显著减少了 VRAM 的使用,使得在有限资源下训练 LLM 更加高效。Unsloth 支持多种主流架构优化,如 Llama3、Qwen 等,在消费级显卡上实现 2-5 倍训练速度提升,显存占用降低 70%。此外,Unsloth 还支持本地 QLoRA 微调,适用于多种自然语言处理任务,并提供了适合初学者的 Colab 环境,方便用户快速上手。
FasterTransformer是一个旨在提高Transformer模型速度和效率的工具,支持多种架构如BERT和GPT,提供高性能的推理和训练,且易于集成。它支持FP16和INT8量化技术,能够在NVIDIA GPU上实现高效的模型推理和快速训练,适合在生产环境中部署优化后的模型。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
MLX Engine是一个开源项目,旨在利用Apple M系列芯片的硬件加速能力,以超快的速度和100%本地、离线的方式运行大型语言模型(LLM)。它能够在M3芯片上以约250 tok/秒的速度运行Llama 3.2 1B模型,始终以结构化JSON格式输出,支持通过代码或Chat UI与模型进行交互,并能同时运行多个模型,用户还可以从Hugging Face下载任何模型。