该项目通过构建大规模人类偏好数据集和视频奖励模型,利用人工反馈改善视频生成模型,解决了运动不平滑、视频与提示错位等问题。项目包含182,000个跨多维度注释的数据集,开发了多维视频奖励模型VideoReward,并提出了三种基于流的对齐算法(Flow-DPO、Flow-RWR、Flow-NRG),显著提升了视频的视觉质量、运动质量和文本对齐度。