LCT 是由香港中文大学和字节跳动联合开发的场景级视频生成框架,旨在通过数据驱动方法学习场景一致性,扩展 MMDiT 的上下文窗口到整个场景,无需额外参数。它通过扩展上下文窗口和数据驱动方法,试图实现更真实的叙事视频制作,特别适用于需要多镜头、多场景连贯性的叙事视频生产。