DoubleSparse开源项目 – 高效加速大语言模型推理

一种高效加速大语言模型推理的技术，通过减少内存访问，几乎不损失性能，让模型运行更快更省资源
DoubleSparse的特点:
1. 16倍内存访问减少
2. 几乎没有性能损失
3. 加速大语言模型推理
4. 节省资源

DoubleSparse的功能:
1. 将模型集成到现有的推理系统中
2. 优化内存使用以提高运行效率
3. 适用于大规模语言模型的推理任务

相关导航

Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术，主要用于处理大模型微调的问题，能够降低微调过程中的计算开销和内存需求。通过冻结预训练模型的权重并在每个 Transformer 块中注入可训练层，LoRA 实现了在减少训练参数数量的同时，保持微调质量与全模型微调相当，并显著提高微调速度。

Llama 3.1官网 – 官方量化版本，速度快内存小

Meta 发布的 Llama 3.1 1B和3B的官方量化版本，提供了更小的内存占用、更快的设备推理速度、准确性和便携性。

optimized_hf_llama_class_for_training开源项目 – 专为LLM训练优化的类

专为大型语言模型（LLM）训练优化的类，集成了多种高效训练技术，旨在提升训练效率和内存使用效率。

Llumnix开源项目 – 高效调度LLM请求的服务层

Llumnix是一个针对大型语言模型（LLM）多实例服务的高效且易于使用的请求调度层，支持动态调度、内存碎片化减少、加载均衡优化，并且易于与现有的多实例部署平台集成。

Kvax开源项目 – JAX框架下的高效FlashAttention实现

Kvax是为JAX框架打造的高效FlashAttention实现，专为长序列和分布式训练优化。它通过支持高效文档掩码计算、实现上下文并行化以及优化长序列处理性能，显著提升了训练效率和内存利用率。

EasyContext开源项目 – 优化内存以支持超长上下文

EasyContext 是一个用于内存优化和训练配方的项目，旨在将语言模型的上下文长度扩展到100万令牌，同时对硬件要求最小化。该项目提供了多种方法来提升模型性能，并兼容现有技术的实现，帮助开发者在资源有限的情况下有效地进行模型训练。

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

CockroachDB Swiss开源项目 – 高性能哈希表

CockroachDB Swiss是一个用Go语言实现的高性能哈希表，专为大规模数据处理设计，提供极致的性能和内存优化。它通过优化内存分配和减少尾延迟，显著提升了处理大规模数据时的效率和响应速度。

Inf-DiT开源项目 – 基于扩散模型的图像上采样方法

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法，能够生成超高分辨率图像。该模型引入了单向块注意力机制(UniBA)，将生成过程中的空间复杂度从 O(N^2)降低到 O(N)，有效解决了传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 采用扩散变换器(DiT)结构，能够处理各种形状和分辨率的图像上采样任务，并通过全局图像嵌入和邻近低分辨率块的交叉注意力机制等技术，增强图像的局部和全局一致性。实验结果表明，Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。

gla-jax开源项目 – 高效长序列处理工具

gla-jax是一个基于JAX和pallas的Gated Linear Attention (GLA)核实现，专注于为长序列处理提供高效解决方案。它通过多种GLA实现和内存优化技术，显著提升了序列处理的性能和效率。

Liger-Kernel开源项目 – 高效Triton内核提升LLM训练性能

Liger-Kernel 是一款专为大型语言模型（LLM）训练设计的高效 Triton 内核。它通过一行代码即可集成到现有训练流程中，显著提升模型性能，降低内存使用，并支持更长上下文长度、更大批量大小和庞大词汇量。

Coco AI官网 – 解决企业信息孤岛问题

Coco AI 是由中国团队 INFINI Labs 开发的开源项目，旨在解决企业中的信息孤岛问题。它通过连接超过40个数据平台，并结合 DeepSeek 大模型的认知智能，快速检索和总结分散存储的文档、代码和会议记录等信息。项目支持私有部署，确保数据隐私安全，适合企业知识管理、技术团队协作、金融合规和内容创作等场景。