RealCam-Vid是一个专为生成模型设计的高质量可控视频数据集,旨在助力动态场景与相机运动的统一学习。该数据集结合了动态场景与绝对尺度的相机轨迹,填补了现有数据集的空白。通过提供高精度的相机姿态注释,RealCam-Vid显著提升了模型对真实世界的泛化能力。数据来源广泛,涵盖了10种以上的场景类型,使其成为研究和开发视频生成模型及相机控制算法的理想选择。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型