Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
FlashAttention是一个开源的推理加速工具,专为AI大模型设计,通过优化注意力机制的计算流程,显著提升推理速度,尤其适合需要实时响应的场景。其v2版本比v1快2倍,比标准注意力机制快5-9倍,在A100上达到225 TFLOPs/s的训练速度,并已在大多数LLM库中得到广泛应用。
赤兔量化注意力:专注于量化注意力机制的高效 GPU 实现库,旨在加速长序列数据的处理速度,并且与 Long-Context-Attention 库无缝集成
Intel的LLM加速库,旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。
收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。此项目涵盖了LLMs的基本原理、Transformer架构、注意力机制的详细讲解,以及预训练与微调的核心知识点,附带详细解答和代码示例,旨在帮助求职者全面掌握相关知识。
ComfyUI-HunyuanVideoWrapper 是一个用于在 ComfyUI 中集成腾讯混元视频生成模型的插件,支持文生视频(T2V)、图生视频和视频生视频(V2V)操作。它提供了修正版和量化版模型,确保更好的效果和性能,并兼容ComfyUI节点,易于集成和使用。此外,它还支持flash_attn和sageattn两种注意力机制,内存占用取决于分辨率和帧数,即使在低分辨率下也能生成高质量视频。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型