flash_attention_inference开源项目 – 优化LLM推理注意力机制

Flash Attention推理助手是一个专为大型语言模型（LLM）推理场景设计的工具，主要研究Flash Attention及其v2版本的C++接口性能。该工具通过优化和简化推理过程中的注意力机制，支持多种注意力推理模式，从而显著提高推理效率。它适用于需要高效处理大型语言模型推理任务的场景，帮助用户更好地理解和优化注意力机制的性能。

flash_attention_inference的特点:

1. 优化并简化了推理过程中的注意力机制
2. 支持多种注意力推理模式
3. 提高推理效率
4. 专注于Flash Attention及其v2版本的C++接口性能研究

flash_attention_inference的功能:

1. 用于大型语言模型（LLM）的推理场景
2. 研究和优化注意力机制的性能
3. 支持多种注意力推理模式的实现
4. 提高模型推理过程中的效率

相关导航

Reward-Guided Speculative Decoding (RSD)开源 – 提升LLM推理效率的框架

RSD是一种创新框架，通过结合轻量级草稿模型、强大目标模型和过程奖励模型，动态优化大型语言模型(LLMs)在推理任务中的计算成本与输出质量平衡。该框架在处理复杂推理任务时效率可达目标模型的4.4倍，准确率平均比并行解码方法高3.5%，特别适合资源受限环境。项目基于Qwen2.5-Math和Skywork-o1-PRM等开源模型构建，支持在线(需3个GPU)和离线(需1个GPU)两种运行模式。

CISC论文 – 优化大型语言模型推理性能

CISC（Confidence-Informed Self-Consistency）是一种针对大型语言模型（LLMs）的新型解码策略，通过整合模型为每个推理路径生成的置信度评分来增强自洽性，显著降低计算成本，同时保持甚至提升模型在推理任务上的性能。该方法通过加权多数投票选择最终答案，平均减少超过40%的推理路径数量，适用于数学和常识推理任务。

φ-Decoding开源 – 优化大型语言模型推理的算法

φ-Decoding 是一种专为大型语言模型（LLM）设计的推理优化算法，通过自适应前瞻采样实现探索与利用的平衡。它将解码定义为前瞻采样，模拟未来步骤以估计全局最优步骤，并结合步骤优势和对齐评估，构建步骤值估计函数。通过宽度内和深度内剪枝策略，φ-Decoding 实现了自适应计算分配，显著提高了推理效率。在多个基准测试中，φ-Decoding 在性能和效率方面均优于自回归 CoT、Tree-of-Thoughts 和 MCTS 等基线方法，并展示了在各种 LLM 上的泛化能力。

transformer-tricks开源项目 – 优化Transformer显存使用

该项目实现了论文 '在不损失准确性的情况下将上下文内存减半 — K-cache is all you need for MHA' 中的优化方法，通过数学方法完全消除了KV-Cache中的V-Cache，使用K-Cache通过计算来恢复V-Cache，从而减少显存使用。

IBPO论文 – 优化大型语言模型推理效率的算法

IBPO（Inference Budget-Constrained Policy Optimization，推理预算约束策略优化）是一种新算法，旨在提高大型语言模型在数学问题上的推理效率。该算法通过将推理预算建模为带约束的效用最大化问题，使模型能够根据查询的难度自适应地分配推理预算，从而在保证甚至提升性能的同时降低推理成本。研究表明，IBPO在MATH500数据集上实现了显著改进，尤其是在2.16倍和4.32倍推理预算下，分别带来了4.14%和5.74%的绝对性能提升。

ScaleLLM开源项目 – 大型语言模型推理系统

ScaleLLM是一个面向大型语言模型高性能推理的系统，经过仔细设计，能够满足产业级环境的需求。

H1111开源项目 – 视频生成的WebUI工具

H1111是一个基于kohya-ss的musubi tuner推理脚本的图形用户界面（GUI），主要用于Hunyuan视频模型的推理任务。它支持多种模型的推理，包括Hunyuan-t2v、Hunyuan-v2v、WanX-t2v、WanX-i2v、SkyReels-i2v和SkyReels-t2v。用户可以通过调整注意力机制（如xformers、sage attention等）来优化显存使用，并提供了LORA模型转换工具。该项目还支持Windows和Linux系统的安装，提供了详细的安装和运行指南。

gh200-llm开源项目 – NVIDIA GH200芯片优化的大型语言模型解决方案

gh200-llm是一个专为NVIDIA GH200芯片优化的大型语言模型训练与部署解决方案。它支持多种架构，包括H100和GH200，并集成了VLLM、XFormers和Flash Attention等先进技术，能够轻松部署和微调8B模型。此外，该解决方案还支持在单个GH200节点上以fp8模式全上下文长度部署70B或72B模型，为大规模语言模型的应用提供了高效、灵活的解决方案。

OLMo-core开源项目 – OLMo语言模型核心构建模块

AI2开源的OLMo语言模型核心构建模块，基于PyTorch实现，提供了完整的模型训练和优化组件，支持多种规模模型(1B-13B)训练，包含flash attention、float8训练等高级特性

ComfyUI-HunyuanVideoWrapper开源项目 – 腾讯混元视频模型适配器

ComfyUI-HunyuanVideoWrapper 是一个用于在 ComfyUI 中集成腾讯混元视频生成模型的插件，支持文生视频（T2V）、图生视频和视频生视频（V2V）操作。它提供了修正版和量化版模型，确保更好的效果和性能，并兼容ComfyUI节点，易于集成和使用。此外，它还支持flash_attn和sageattn两种注意力机制，内存占用取决于分辨率和帧数，即使在低分辨率下也能生成高质量视频。

Native Sparse Attention开源项目 – 高效实现原生稀疏注意力

Native Sparse Attention是一个高效实现原生稀疏注意力的Triton代码库，专注于在深度学习模型中优化注意力机制。通过硬件对齐优化和动态选择稀疏块，显著提升了性能，比FlashAttention更快，性能提升高达数倍。适用于需要高效处理稀疏数据的场景，并在AI创造营等项目中得到应用。

aiXcoder-7B开源项目 – 一个专为代码设计的大型语言模型

aiXcoder-7B是一个专为理解与生成代码设计的大型语言模型，提供多种编程语言的代码补全、理解与生成任务的先进性能，旨在提高开发效率。