STAR是由南京大学、字节跳动、西南大学联合推出的创新视频超分辨率框架,旨在从低分辨率视频生成高分辨率视频,同时保持细节清晰度和时间一致性。该项目整合了强大的文本到视频扩散模型,增强了视频的空间细节和时间建模能力。STAR引入了局部信息增强模块(LEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。此外,STAR还推出了动态频率(DF)损失,引导模型在不同扩散步骤中关注不同频率成分,从而提高恢复保真度。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型