Flux系列模型

FluxKits是一个包含Flux-mini和Flux-NPU的工具集，其中Flux-mini是一个3.2B参数的文生图模型，经过蒸馏自12B的Flux-dev模型，显著降低了硬件需求；而Flux-NPU则是支持在NPU设备上运行Flux模型的工具库。

Flux系列模型NPU设备支持文生图模型生成效果优化

Unsloth开源项目 – 高效大模型微调框架

Unsloth 是一个用于训练和推理大型语言模型（LLM）的工具，特别适用于使用 DeepSeek 的 GRPO 算法进行训练。它显著减少了 VRAM 的使用，使得在有限资源下训练 LLM 更加高效。Unsloth 支持多种主流架构优化，如 Llama3、Qwen 等，在消费级显卡上实现 2-5 倍训练速度提升，显存占用降低 70%。此外，Unsloth 还支持本地 QLoRA 微调，适用于多种自然语言处理任务，并提供了适合初学者的 Colab 环境，方便用户快速上手。

NVIDIA显卡支持QLoRA微调工具内存优化工具深度学习模型训练

FasterTransformer开源项目 – 更快的Transformer模型优化工具

FasterTransformer是一个旨在提高Transformer模型速度和效率的工具，支持多种架构如BERT和GPT，提供高性能的推理和训练，且易于集成。它支持FP16和INT8量化技术，能够在NVIDIA GPU上实现高效的模型推理和快速训练，适合在生产环境中部署优化后的模型。

BERTFasterTransformerFP16量化GPT

Emu开源项目 – 多模态生成式模型

这是一个具有370亿参数的生成式多模态模型，使用统一的自回归目标在大规模多模态序列上进行训练。

上下文学习多模态生成模型生成图像生成文本

MLX Engine开源项目 – 利用硬件加速的开源语言模型引擎

MLX Engine是一个开源项目，旨在利用Apple M系列芯片的硬件加速能力，以超快的速度和100%本地、离线的方式运行大型语言模型（LLM）。它能够在M3芯片上以约250 tok/秒的速度运行Llama 3.2 1B模型，始终以结构化JSON格式输出，支持通过代码或Chat UI与模型进行交互，并能同时运行多个模型，用户还可以从Hugging Face下载任何模型。

Apple M系列芯片Hugging Face模型下载LLM运行开源语言模型引擎

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。