FlashVideo是一个专注于高效生成和增强高分辨率视频的AI工具,支持从文本描述直接生成视频或对低分辨率视频进行高清升级。其核心技术分为两阶段:首先生成270p低清视频(约30秒),再通过4步增强至1080p高清(约72秒)。项目提供完整模型权重和开源代码,支持长文本提示以实现更精细的视频生成效果。
Step-Video-T2V 是一个由 Stepfun AI 开发的先进文本到视频生成模型,支持中文和英文输入。它采用深度压缩技术,显著降低计算资源消耗,同时保持高质量视频重建。模型可生成高达204帧(约8秒)的高清视频,捕捉细腻视觉细节和复杂动态变化。其广泛应用于电影、广告、短视频、动画制作、教育培训和体育动作解析等场景。
万相 wan 2.1 是阿里云推出的一款开源 AI 视频生成模型,支持从文本和图像生成高质量视频。该模型有多个变体,如 T2V-14B 和 T2V-1.3B,适用于不同需求。它在动态运动和多对象交互方面表现优异,支持中英文文本效果,适合学术研究、商业开发和内容创作等多种场景。
Luma Ray2 是 Luma AI 推出的一种大型文本到视频生成模型,能够从文本或图像提示生成逼真的视频,展现自然且连贯的运动。它基于多模态架构训练,计算能力是前代 Ray1 的 10 倍,优化了运动连贯性、物理模拟和光影细节,生成接近电影级质感的视频。目前仅付费用户可用,未来计划扩展视频编辑和格式转换功能。
HunYuanVideo 是由腾讯开发的开源大型视频生成模型,专注于从文本描述生成高质量视频。该模型拥有13亿参数,是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记,基于Transformer架构,具备全注意力机制,支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异,优于其他领先模型。
HunyanVideo 是由腾讯开发的开源视频生成模型,拥有 13 亿参数,是目前最大的开源视频生成模型。它支持从文本描述生成视频,具有超现实画质、高语义一致性、流畅的运动画面和原生镜头转换等特点,适用于广告宣传、创意视频生成等商业场景。用户可以通过 GitHub 和 Hugging Face 访问模型权重、推理代码和算法,并通过腾讯元宝 APP 申请试用,API 也已开放测试。
Goku是由字节跳动与香港大学联合开发的一款基于Rectified Flow Transformer架构的视频生成模型。它通过精细的数据处理、模型设计和流式生成技术,实现了高质量的图像和视频生成。Goku支持多种生成任务,包括文本到视频、图像到视频和文本到图像生成,尤其在虚拟数字人和广告场景中表现突出。在权威测试VBench中,Goku的文本到视频生成得分达84.85,创下新纪录(SOTA)。
VGen是由阿里巴巴集团通义实验室开发的开源视频生成代码库,集成了多种先进的视频生成模型,包括I2VGen-XL、VideoComposer、HiGen、TF-T2V、InstructVideo、DreamVideo、VideoLCM等。它能够从文本、图像、运动轨迹等输入生成高质量视频,并支持多种视频生成工具,如可视化、采样、训练、推理、联合训练、加速等。VGen具有高度的扩展性和完整性,适用于多种视频生成任务。
Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型,拥有300亿参数,能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),显著提高了训练和推理效率。配备双语文本编码器,支持中英文提示输入,并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。
OpenVideo是一个专注于文本到视频生成领域的开源项目,旨在为AI研究者提供高质量、多样化的视频数据集。该项目不仅提供了超过106k+的720p视频片段,还支持多平台数据下载,包括ModelScope和HuggingFace。此外,OpenVideo还提供完整的数据收集、清洗和标注工具,帮助研究者更高效地进行视频数据处理和分析。
Google Veo 2 是一个前沿的视频生成模型,能够根据文本或图像创建逼真的视频片段。它与改进版的文本到图像模型 Imagen 3 一同推出,提供更高质量的视觉效果。
Text2Video-Zero是一种基于文本到图像的扩散模型,能够无需预训练实现文本到视频的生成。它结合了文本提示、姿态或边缘指导,支持高质量视频的零样本生成,适用于创作和编辑不同类型的视频内容。
Veggie AI是一个创新的平台,用户只需上传角色照片、动作视频,或输入文本提示,即可创建完全可控的视频内容。该工具利用先进的AI技术,简化了视频创作过程,让用户能够轻松实现自己的创意与想法。
AI视频生成网站提供先进的AI模型,包括卫星AI和侧边面板AI,旨在迅速从文本和图像创建高质量视频。这些模型利用尖端技术生成视觉上令人惊叹和逼真的视频内容,使视频创作对广泛用户变得可及。
Luma AI Video Generator是一个由Luma AI开发的平台,利用先进的人工智能技术,根据文本指令和图像快速高效地创建高质量的奇幻视频。用户只需输入文本描述或选择提供的提示,AI模型便会生成基于输入的高质量视频。
DreamMachine AI 视频生成器由 Luma AI 提供支持,利用先进的微调技术,允许用户仅需几次点击即可将想法变为现实。该系统通过直接在视频上训练的高效可扩展变换器模型,确保物理准确性、一致性和富有事件感的镜头,能够从静态快照生成流畅的动态视频,理解物理世界中的互动和物理现象。
FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。
Latte是一种新的潜扩散Transformer模型,用于视频生成,能够从输入视频中提取时空token,并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能,支持文本到视频生成任务,适用于多种复杂的时空视频生成需求。
VideoTuna是一个集成了多种视频生成模型的代码库,支持从文本到视频、图像到视频的生成,并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型,如CogVideoX、Open-Sora、VideoCrafter等,能够处理不同分辨率的生成任务。此外,VideoTuna还提供了丰富的后处理功能,如视频到视频的后处理和增强模块,并计划推出3D视频VAE和可控面部视频生成模型,进一步扩展应用场景。
Sora是OpenAI推出的开创性文本到视频模型,旨在弥合文本提示与视频生成之间的鸿沟。它利用先进的AI技术,将用户的文字描述转化为高质量的视频内容,提供了丰富的创作可能性。