CogView3 是智谱AI基于DiT框架开发的开源文生图模型,采用级联扩散技术,支持中文和英文输入,能够生成高质量的图像。CogView3-Plus 是其增强版本,基于Diffusion Transformer框架,进一步提升了图像生成效果。该项目提供了多种模型版本,支持不同分辨率的图像生成,并集成了多种优化技术,如提示优化和GPU内存管理。
Pose Depot是一个专为ControlNet设计的高质量姿势图像集合,提供多角度的深度图、Canny边缘图、法线图和OpenPose骨架图。该项目旨在为Stable Diffusion等文生图模型提供更精确的姿势控制,并包含一个网页浏览界面,方便用户筛选和预览所需姿势图像。
英伟达开源的文生图模型,能够生成高分辨率图像,具有高效性能和低资源需求。
FluxKits是一个包含Flux-mini和Flux-NPU的工具集,其中Flux-mini是一个3.2B参数的文生图模型,经过蒸馏自12B的Flux-dev模型,显著降低了硬件需求;而Flux-NPU则是支持在NPU设备上运行Flux模型的工具库。
Unsloth 是一个用于训练和推理大型语言模型(LLM)的工具,特别适用于使用 DeepSeek 的 GRPO 算法进行训练。它显著减少了 VRAM 的使用,使得在有限资源下训练 LLM 更加高效。Unsloth 支持多种主流架构优化,如 Llama3、Qwen 等,在消费级显卡上实现 2-5 倍训练速度提升,显存占用降低 70%。此外,Unsloth 还支持本地 QLoRA 微调,适用于多种自然语言处理任务,并提供了适合初学者的 Colab 环境,方便用户快速上手。
FasterTransformer是一个旨在提高Transformer模型速度和效率的工具,支持多种架构如BERT和GPT,提供高性能的推理和训练,且易于集成。它支持FP16和INT8量化技术,能够在NVIDIA GPU上实现高效的模型推理和快速训练,适合在生产环境中部署优化后的模型。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
MLX Engine是一个开源项目,旨在利用Apple M系列芯片的硬件加速能力,以超快的速度和100%本地、离线的方式运行大型语言模型(LLM)。它能够在M3芯片上以约250 tok/秒的速度运行Llama 3.2 1B模型,始终以结构化JSON格式输出,支持通过代码或Chat UI与模型进行交互,并能同时运行多个模型,用户还可以从Hugging Face下载任何模型。