Llumnix开源项目 – 高效调度LLM请求的服务层

Llumnix是一个针对大型语言模型（LLM）多实例服务的高效且易于使用的请求调度层，支持动态调度、内存碎片化减少、加载均衡优化，并且易于与现有的多实例部署平台集成。
Llumnix的特点:
1. 动态调度
2. 内存碎片化减少
3. 加载均衡优化
4. 易于与现有多实例部署平台集成

Llumnix的功能:
1. 用于高效处理大型语言模型的请求
2. 优化多实例部署的资源利用
3. 减少内存使用和提升响应速度

相关导航

LLM Pruning Alternative-一种新型模型修剪方案

这是一个新的简单替代方案，基于计算输入激活的权重大小和范数之间的逐元素乘积。

Toolhouse官网 – 为大型语言模型提供云基础设施

Toolhouse是一个云基础设施平台，旨在为大型语言模型（LLMs）提供动作和知识，简化函数调用过程，仅需三行代码即可实现。

TabSherpa.ai官网 – 高效管理浏览器标签

TabSherpa.ai 是一个浏览器扩展，当你关闭 Chrome 时，它会将你打开的标签页的详细列表和每个标签页的摘要通过邮件发送给你。TabSherpa 侧边栏还显示摘要和相似链接建议，帮助你在浏览时搜索标签和监控内存使用情况。

EasyContext开源项目 – 优化内存以支持超长上下文

EasyContext 是一个用于内存优化和训练配方的项目，旨在将语言模型的上下文长度扩展到100万令牌，同时对硬件要求最小化。该项目提供了多种方法来提升模型性能，并兼容现有技术的实现，帮助开发者在资源有限的情况下有效地进行模型训练。

XAIstream开源项目 – 实时AI处理开源框架

XAIstream是一个专为实时AI处理设计的开源框架，为开发者提供构建低延迟智能系统的工具。它支持流式数据的高效处理，适用于动态场景下的模型应用。通过流式计算、推理加速、动态调度、硬件适配和接口支持等功能，XAIstream能够帮助开发者在各种实时场景中高效地应用AI技术。

gla-jax开源项目 – 高效长序列处理工具

gla-jax是一个基于JAX和pallas的Gated Linear Attention (GLA)核实现，专注于为长序列处理提供高效解决方案。它通过多种GLA实现和内存优化技术，显著提升了序列处理的性能和效率。

Liger-Kernel开源项目 – 高效Triton内核提升LLM训练性能

Liger-Kernel 是一款专为大型语言模型（LLM）训练设计的高效 Triton 内核。它通过一行代码即可集成到现有训练流程中，显著提升模型性能，降低内存使用，并支持更长上下文长度、更大批量大小和庞大词汇量。

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

DoubleSparse开源项目 – 高效加速大语言模型推理

一种高效加速大语言模型推理的技术，通过减少内存访问，几乎不损失性能，让模型运行更快更省资源

CockroachDB Swiss开源项目 – 高性能哈希表

CockroachDB Swiss是一个用Go语言实现的高性能哈希表，专为大规模数据处理设计，提供极致的性能和内存优化。它通过优化内存分配和减少尾延迟，显著提升了处理大规模数据时的效率和响应速度。

Inf-DiT开源项目 – 基于扩散模型的图像上采样方法

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法，能够生成超高分辨率图像。该模型引入了单向块注意力机制(UniBA)，将生成过程中的空间复杂度从 O(N^2)降低到 O(N)，有效解决了传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 采用扩散变换器(DiT)结构，能够处理各种形状和分辨率的图像上采样任务，并通过全局图像嵌入和邻近低分辨率块的交叉注意力机制等技术，增强图像的局部和全局一致性。实验结果表明，Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。

optimized_hf_llama_class_for_training开源项目 – 专为LLM训练优化的类

专为大型语言模型（LLM）训练优化的类，集成了多种高效训练技术，旨在提升训练效率和内存使用效率。