Transformer模型训练动态

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer-揭示自注意力层的动态过程

该论文打开了自注意力层如何组合输入token动态过程的黑盒子，并揭示了潜在的归纳偏见的性质。

Transformer模型训练动态归纳偏见研究深度学习模型分析自注意力层动态过程

Analysis360开源项目 – LLM360评估与分析的代码库

用于LLM360评估和分析的代码库，包含了多种评估指标和分析方法，旨在帮助用户全面理解和优化模型表现。

LLM360评估工具模型性能分析评估报告生成

ChituAttention开源项目 – 量化注意力机制的高效实现库

赤兔量化注意力：专注于量化注意力机制的高效 GPU 实现库，旨在加速长序列数据的处理速度，并且与 Long-Context-Attention 库无缝集成

深度学习模型优化量化注意力机制长序列数据处理高效GPU实现

ComfyUI-HunyuanVideoWrapper开源项目 – 腾讯混元视频模型适配器

ComfyUI-HunyuanVideoWrapper 是一个用于在 ComfyUI 中集成腾讯混元视频生成模型的插件，支持文生视频（T2V）、图生视频和视频生视频（V2V）操作。它提供了修正版和量化版模型，确保更好的效果和性能，并兼容ComfyUI节点，易于集成和使用。此外，它还支持flash_attn和sageattn两种注意力机制，内存占用取决于分辨率和帧数，即使在低分辨率下也能生成高质量视频。