transformer-tricks开源项目 – 优化Transformer显存使用

该项目实现了论文 ‘在不损失准确性的情况下将上下文内存减半 — K-cache is all you need for MHA’ 中的优化方法，通过数学方法完全消除了KV-Cache中的V-Cache，使用K-Cache通过计算来恢复V-Cache，从而减少显存使用。

transformer-tricks的特点:

1. 完全消除KV-Cache中的V-Cache
2. 使用K-Cache通过计算恢复V-Cache
3. 减少显存使用
4. 支持Flash Attention
5. 支持各种量化方法

transformer-tricks的功能:

1. 优化Transformer模型的显存使用
2. 在不损失准确性的情况下减少上下文内存
3. 支持Flash Attention的集成
4. 支持量化方法的集成

相关导航

flash_attention_inference开源项目 – 优化LLM推理注意力机制

Flash Attention推理助手是一个专为大型语言模型（LLM）推理场景设计的工具，主要研究Flash Attention及其v2版本的C++接口性能。该工具通过优化和简化推理过程中的注意力机制，支持多种注意力推理模式，从而显著提高推理效率。它适用于需要高效处理大型语言模型推理任务的场景，帮助用户更好地理解和优化注意力机制的性能。

HuggingFace 500卡训练教程官网 – 大规模GPU集群调参技术指南

这是一本由huggingface推出的交互式电子书，专注于在大规模GPU集群上训练大语言模型的调参技术。书中详细探讨了显存使用、计算效率和通信开销等关键挑战，并提供了相关的解决方案和权衡策略，帮助用户在大规模训练中找到计算、通信和显存之间的合适平衡。

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

OLMo-core开源项目 – OLMo语言模型核心构建模块

AI2开源的OLMo语言模型核心构建模块，基于PyTorch实现，提供了完整的模型训练和优化组件，支持多种规模模型(1B-13B)训练，包含flash attention、float8训练等高级特性

SpeCache论文 – LLM长文本生成的显存优化方案

SpeCache是一个针对大型语言模型（LLMs）长文本生成场景的推测性关键值缓存项目，通过将KV缓存卸载到CPU内存并动态预取关键数据，显著降低GPU显存占用。其核心技术包括：1）利用CPU内存的大容量特性存储完整KV缓存；2）基于VRAM中的低位缓存副本动态测量重要性；3）推测性预测下一令牌的KV对实现预取并行化。在LongBench和Needle-in-a-Haystack基准测试中，无需模型重训练即可实现10倍压缩比，同时保持生成质量。

unsloth开源项目 – 高效微调大型语言模型的工具

unsloth 是一个用于微调和优化大型语言模型（LLM）的 Python 工具库，旨在通过动态量化和显存优化技术提高模型微调速度，并显著降低显存占用。它支持多种硬件配置和大型语言模型，特别适合处理超长上下文任务，并提供可直接在线体验的 Jupyter Notebook 示例，帮助用户快速上手。

gh200-llm开源项目 – NVIDIA GH200芯片优化的大型语言模型解决方案

gh200-llm是一个专为NVIDIA GH200芯片优化的大型语言模型训练与部署解决方案。它支持多种架构，包括H100和GH200，并集成了VLLM、XFormers和Flash Attention等先进技术，能够轻松部署和微调8B模型。此外，该解决方案还支持在单个GH200节点上以fp8模式全上下文长度部署70B或72B模型，为大规模语言模型的应用提供了高效、灵活的解决方案。

chatgpt开源项目 – dingtalk

这个开源项目是一个基于GO语言实现的钉钉集成ChatGPT机器人。它可以将ChatGPT机器人集成到钉钉平台上，与用户进行交互，实现自然语言处理、回答生成和交互式的问答功能。

Generative AI for Krita开源项目 – Krita的生成式AI插件

Krita的生成式AI插件，提供简化的界面以便在Krita中生成图像。支持使用文本提示进行图像修补和外扩，无需调整。

neosr开源项目 – 开源超分辨率模型训练框架

neosr 是一个开源的超分辨率模型训练框架，旨在简化图像恢复过程。它支持多种架构和数据集，提供高效的训练能力，适用于各种图像恢复任务。

Langchain Course for Beginners开源项目 – 学习构建与部署AI应用

本课程旨在教授Langchain的基础知识，帮助初学者和开发者学习如何构建与部署AI应用，课程内容包括实例项目和实用示例。

Sacred OS开源项目 – 浏览器中的开源操作系统

Sacred OS是一个在浏览器中运行的操作系统，它使用启动加载器来保存用户设置、程序和文件。该系统以 Windows 9x 为灵感，完全开源，其代码托管在线。

LongAnimateDiff开源项目 – 突破Animatediff帧数限制

LongAnimateDiff是Lightricks发布的一个基于AnimateDiff模型（v2）的高级运动模块，旨在解决Animatediff一次只能生成16帧视频的限制。它支持生成最多64帧的视频，超越了Stability AI SVD设定的25帧行业标准。该项目提供了更高的帧数生成能力，适用于需要高质量帧生成的动画项目，并且可以与ComfyUI集成，优化视频生成流程。

ComfyUI-LTXVideo开源项目 – 强大的视频生成与转换工具

一个功能强大的ComfyUI自定义节点集合，集成了LTXVideo扩散模型，支持文本生成视频、图像生成视频和视频到视频的转换功能，提供完整的工作流示例，可通过ComfyUI-Manager轻松安装使用

NeuralKG开源项目 – 基于PyTorch Lightning的知识图谱表示学习框架

NeuralKG是一个基于PyTorch Lightning开发的知识图谱表示学习框架，集成了多种知识图谱表示学习模型。它支持传统知识图谱表示学习模型、基于图神经网络的知识图谱表示学习模型以及基于规则的知识图谱表示学习模型。NeuralKG采用模块化设计，便于个性化和维护，能够高效、可扩展地进行知识图谱表示学习任务。

暂无评论

暂无评论...