该项目提供了一种视频语义分割的方法,利用帧间特征重建技术,在半监督学习的框架下提升模型性能,适用于缺乏标注数据的场景。
FlowSAM是一个用于视频中的运动对象分割的项目,结合了Segment Anything模型(SAM)和光流技术,旨在提高分割精度和效率。它不仅能够处理单一对象,还能在多对象场景中保持对象身份,提升分割性能。
GIMM-VFI是一种新的视频插值方法,它使用运动建模来预测帧之间的运动。该方法通过有效建模真实世界视频中的时空动态,能够生成更高质量的运动视频,并且可以与现有的基于流的VFI工作集成。
这是一个双层递归卷积网络模型的参考实现,旨在提供灵活的应用支持和优化的性能。
包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息