Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型,拥有300亿参数,能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),显著提高了训练和推理效率。配备双语文本编码器,支持中英文提示输入,并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型