所有AI工具AI开发框架AI视频工具

LCT: Long Context Tuning for Video Generation官网 – 场景级视频生成框架

LCT 是由香港中文大学和字节跳动联合开发的场景级视频生成框架,旨在通过数据驱动方法学习场景一致性,扩展 MMDiT 的上下文窗口到整个场景,无需额外参数。它通过扩展上下文窗口和...

标签:

AI交流(进群备注:LCT: Long Context Tuning for Video Generation)

LCT 是由香港中文大学和字节跳动联合开发的场景级视频生成框架,旨在通过数据驱动方法学习场景一致性,扩展 MMDiT 的上下文窗口到整个场景,无需额外参数。它通过扩展上下文窗口和数据驱动方法,试图实现更真实的叙事视频制作,特别适用于需要多镜头、多场景连贯性的叙事视频生产。

LCT: Long Context Tuning for Video Generation的特点:

  • 1. 使用长上下文 MMDiT 块,全注意力机制覆盖所有文本和视频标记。
  • 2. 采用交错三维旋转位置嵌入(RoPE)区分不同镜头,保持内部相对位置关系。
  • 3. 异步时间步策略,支持联合去噪和条件生成。
  • 4. 支持条件生成和组合生成,可基于身份或环境图像生成视频。
  • 5. 能将单镜头视频扩展到分钟级时长,通过自动回归生成 10 秒片段保持视觉一致性。
  • 6. 提供互动式多镜头开发,导演可基于先前片段逐步完善内容,支持即时视觉反馈的创意决策。

LCT: Long Context Tuning for Video Generation的功能:

  • 1. 联合生成:使用双向注意力模型,适合一次性生成所有镜头。
  • 2. 自动回归生成:使用经过上下文因果注意力微调的模型,需设置历史条件和特定扩散时间步(通常在 t=100 到 t=500 之间),以平衡生成质量和保真度。
  • 3. 互动生成:允许基于先前片段逐步完善内容,导演可逐镜头调整,无需全面的初始提示。

相关导航

暂无评论

暂无评论...