1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

1.58-bit FLUX的特点:

1. 权重压缩到1.58位，仅用{-1, 0, +1}三种值表示
2. 生成1024 x 1024分辨率图像时，性能与未量化模型基本一致
3. 存储减少7.7倍，推理内存减少5.1倍
4. 采用后训练量化（PTQ）方法，无需训练过程中的微调

1.58-bit FLUX的功能:

1. 文生图像模型的高效推理
2. 减少内存占用和计算需求的图像生成
3. 直接对预训练模型进行量化处理，避免重新训练

相关导航

CockroachDB Swiss开源项目 – 高性能哈希表

CockroachDB Swiss是一个用Go语言实现的高性能哈希表，专为大规模数据处理设计，提供极致的性能和内存优化。它通过优化内存分配和减少尾延迟，显著提升了处理大规模数据时的效率和响应速度。

r1-ktransformers-guide开源项目 – 让DeepSeek-R1模型快速运行

该项目旨在提升DeepSeek-R1 GGUF模型在KTransformers上的运行效率，提供近2倍的性能提升，并支持多GPU和内存映射，适配不同硬件，优化配置丰富，便于实现高效推理。

Kvax开源项目 – JAX框架下的高效FlashAttention实现

Kvax是为JAX框架打造的高效FlashAttention实现，专为长序列和分布式训练优化。它通过支持高效文档掩码计算、实现上下文并行化以及优化长序列处理性能，显著提升了训练效率和内存利用率。

LongSpec开源项目 – 高效解码长文本场景

长文本场景下的高效解码方案，让大语言模型推理不再卡顿。

Liquid Foundation Models (LFMs)官网 – 高效多模态生物启发AI模型

LFM是Liquid AI公司推出的创新型生成式AI模型系列，其架构灵感来源于秀丽隐杆线虫的神经结构，突破传统Transformer框架限制。该模型在1B/3B/40B参数规模上实现高效推理，支持32k长上下文处理，并针对NVIDIA/Apple等硬件优化。具备多模态处理能力，擅长文本/音频/视频等序列数据，支持英语/中文等7种语言，在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的全场景部署方案，包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。

Llumnix开源项目 – 高效调度LLM请求的服务层

Llumnix是一个针对大型语言模型（LLM）多实例服务的高效且易于使用的请求调度层，支持动态调度、内存碎片化减少、加载均衡优化，并且易于与现有的多实例部署平台集成。

Liger-Kernel开源项目 – 高效Triton内核提升LLM训练性能

Liger-Kernel 是一款专为大型语言模型（LLM）训练设计的高效 Triton 内核。它通过一行代码即可集成到现有训练流程中，显著提升模型性能，降低内存使用，并支持更长上下文长度、更大批量大小和庞大词汇量。

MaxDiffusion开源项目 – 高效AI扩散模型实现

MaxDiffusion是一个专注于AI扩散模型的高效实现与优化的项目，旨在为大规模训练和推理提供强大的支持。它支持多种主流扩散模型，并通过优化的TPU和GPU加速显著提升推理速度。此外，项目还引入了Flux LoRA等创新功能，进一步提高了推理效率。

DoubleSparse开源项目 – 高效加速大语言模型推理

一种高效加速大语言模型推理的技术，通过减少内存访问，几乎不损失性能，让模型运行更快更省资源

diffusion-rs开源项目 – 极速推理工具

扩散模型的极速推理工具，能快速处理复杂的图像生成任务，提升模型运行效率

Llama 3.1官网 – 官方量化版本，速度快内存小

Meta 发布的 Llama 3.1 1B和3B的官方量化版本，提供了更小的内存占用、更快的设备推理速度、准确性和便携性。

xLSTM-7B开源项目 – 扩展LSTM模型，高效推理

xLSTM-7B是一种扩展的LSTM模型架构，通过引入Exponential Gating和Matrix Memory等技术，克服了传统LSTM的局限性。相较于Transformer架构，xLSTM-7B在推理速度和参数效率方面表现出显著优势，适用于多种序列数据处理任务。

rational_kat_cu开源项目 – CUDA加速的KAT有理函数

rational_kat_cu 是一个用于 Kolmogorov–Arnold Transformers (KAT) 的 CUDA C++ 扩展项目，专注于实现 group rational function，并支持高效的训练和推理。通过 CUDA 加速，该项目显著提升了 KAT 模型的性能，特别适用于需要高性能计算的场景。

EasyContext开源项目 – 优化内存以支持超长上下文

EasyContext 是一个用于内存优化和训练配方的项目，旨在将语言模型的上下文长度扩展到100万令牌，同时对硬件要求最小化。该项目提供了多种方法来提升模型性能，并兼容现有技术的实现，帮助开发者在资源有限的情况下有效地进行模型训练。