H1111是一个基于kohya-ss的musubi tuner推理脚本的图形用户界面(GUI),主要用于Hunyuan视频模型的推理任务。它支持多种模型的推理,包括Hunyuan-t2v、Hunyuan-v2v、WanX-t2v、WanX-i2v、SkyReels-i2v和SkyReels-t2v。用户可以通过调整注意力机制(如xformers、sage attention等)来优化显存使用,并提供了LORA模型转换工具。该项目还支持Windows和Linux系统的安装,提供了详细的安装和运行指南。
Flash Attention推理助手是一个专为大型语言模型(LLM)推理场景设计的工具,主要研究Flash Attention及其v2版本的C++接口性能。该工具通过优化和简化推理过程中的注意力机制,支持多种注意力推理模式,从而显著提高推理效率。它适用于需要高效处理大型语言模型推理任务的场景,帮助用户更好地理解和优化注意力机制的性能。
Native Sparse Attention是一个高效实现原生稀疏注意力的Triton代码库,专注于在深度学习模型中优化注意力机制。通过硬件对齐优化和动态选择稀疏块,显著提升了性能,比FlashAttention更快,性能提升高达数倍。适用于需要高效处理稀疏数据的场景,并在AI创造营等项目中得到应用。
ScaleLLM是一个面向大型语言模型高性能推理的系统,经过仔细设计,能够满足产业级环境的需求。
ComfyUI-HunyuanVideoWrapper 是一个用于在 ComfyUI 中集成腾讯混元视频生成模型的插件,支持文生视频(T2V)、图生视频和视频生视频(V2V)操作。它提供了修正版和量化版模型,确保更好的效果和性能,并兼容ComfyUI节点,易于集成和使用。此外,它还支持flash_attn和sageattn两种注意力机制,内存占用取决于分辨率和帧数,即使在低分辨率下也能生成高质量视频。
Latte是一种新的潜扩散Transformer模型,用于视频生成,能够从输入视频中提取时空token,并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能,支持文本到视频生成任务,适用于多种复杂的时空视频生成需求。
该论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。
Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 'GPT slop')的生成概率