Step-Video-T2V 是一个由 Stepfun AI 开发的先进文本到视频生成模型,支持中文和英文输入。它采用深度压缩技术,显著降低计算资源消耗,同时保持高质量视频重建。模型可生成高达204帧(约8秒)的高清视频,捕捉细腻视觉细节和复杂动态变化。其广泛应用于电影、广告、短视频、动画制作、教育培训和体育动作解析等场景。