注意力机制性能提升

Decoding Attention开源项目 – 优化大型语言模型解码的注意力工具

Decoding Attention开源项目 – 优化大型语言模型解码的注意力工具

Decoding Attention是针对大型语言模型（LLM）解码阶段的多头注意力（MHA）优化工具，利用CUDA核心进行推理，解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化，有助于提升模型性能。

CUDA核心推理优化大型语言模型解码优化工具注意力机制性能提升

FlashAttention开源项目 – 优化注意力机制，加速AI推理

FlashAttention开源项目 – 优化注意力机制，加速AI推理

FlashAttention是一个开源的推理加速工具，专为AI大模型设计，通过优化注意力机制的计算流程，显著提升推理速度，尤其适合需要实时响应的场景。其v2版本比v1快2倍，比标准注意力机制快5-9倍，在A100上达到225 TFLOPs/s的训练速度，并已在大多数LLM库中得到广泛应用。

FlashAttention-2PyTorch注意力机制深度学习

ChituAttention开源项目 – 量化注意力机制的高效实现库

ChituAttention开源项目 – 量化注意力机制的高效实现库

赤兔量化注意力：专注于量化注意力机制的高效 GPU 实现库，旨在加速长序列数据的处理速度，并且与 Long-Context-Attention 库无缝集成

深度学习模型优化量化注意力机制长序列数据处理高效GPU实现

ipex-llm开源项目 – Intel的LLM加速库

ipex-llm开源项目 – Intel的LLM加速库

Intel的LLM加速库，旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。

Intel LLM加速库模型推理模型训练优化深度学习框架加速

LLMs Interview Questions开源项目 – 系统化准备大语言模型面试

LLMs Interview Questions开源项目 – 系统化准备大语言模型面试

收录了63个大语言模型(LLM)相关的面试问题及答案，针对2024年机器学习和数据科学面试提供系统化的准备资料。此项目涵盖了LLMs的基本原理、Transformer架构、注意力机制的详细讲解，以及预训练与微调的核心知识点，附带详细解答和代码示例，旨在帮助求职者全面掌握相关知识。

LLM面试准备Transformer架构大语言模型知识注意力机制

ComfyUI-HunyuanVideoWrapper开源项目 – 腾讯混元视频模型适配器

ComfyUI-HunyuanVideoWrapper开源项目 – 腾讯混元视频模型适配器

ComfyUI-HunyuanVideoWrapper 是一个用于在 ComfyUI 中集成腾讯混元视频生成模型的插件，支持文生视频（T2V）、图生视频和视频生视频（V2V）操作。它提供了修正版和量化版模型，确保更好的效果和性能，并兼容ComfyUI节点，易于集成和使用。此外，它还支持flash_attn和sageattn两种注意力机制，内存占用取决于分辨率和帧数，即使在低分辨率下也能生成高质量视频。

ComfyUI封装节点HunyuanVideo模型视频生成注意力机制优化视频质量控制

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3