ComfyUI-HunyuanVideoWrapper 是一个用于在 ComfyUI 中集成腾讯混元视频生成模型的插件,支持文生视频(T2V)、图生视频和视频生视频(V2V)操作。它提供了修正版和量化版模型,确保更好的效果和性能,并兼容ComfyUI节点,易于集成和使用。此外,它还支持flash_attn和sageattn两种注意力机制,内存占用取决于分辨率和帧数,即使在低分辨率下也能生成高质量视频。
Latte是一种新的潜扩散Transformer模型,用于视频生成,能够从输入视频中提取时空token,并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能,支持文本到视频生成任务,适用于多种复杂的时空视频生成需求。
该论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。
Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 'GPT slop')的生成概率