Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具,核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号,仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动,生成流畅自然的视频。Sonic在口型同步、表情和头部运动方面表现出色,尤其适合长视频生成。
Loong是一个利用自回归语言模型生成分钟级长视频的项目,支持从短视频逐步训练到长视频,采用损失重新加权方案以解决训练中的损失不平衡问题,同时通过视频标记重新编码和采样策略减少推理中的错误积累。
FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。
StreamingT2V 是一种自回归方法,用于生成具有平滑过渡的长视频,支持80、240、600、1200帧或更多帧的生成。该方法通过一致的块转换和长期记忆块,确保生成的视频在动态性和连贯性上的高质量表现。
Framer 用于交互式帧插值,其目标是根据用户的创意在两幅图像之间生成平滑过渡的帧。
TokenFlow 是一个利用文本到图像扩散模型进行视频编辑的项目,能够保留输入视频的空间布局和运动,同时通过扩散特征空间强制一致性来确保编辑的一致性。该项目不需要任何训练或微调,并且可以与现成的文本到图像编辑方法结合使用。
Tune-A-Video 是一个基于文本描述生成视频的工具,支持多种风格和主题,能够快速输出高质量视频,且具有用户友好的界面,适合各种创作需求。
VideoTuna是一个集成了多种视频生成模型的代码库,支持从文本到视频、图像到视频的生成,并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型,如CogVideoX、Open-Sora、VideoCrafter等,能够处理不同分辨率的生成任务。此外,VideoTuna还提供了丰富的后处理功能,如视频到视频的后处理和增强模块,并计划推出3D视频VAE和可控面部视频生成模型,进一步扩展应用场景。
DreamMachine AI 视频生成器由 Luma AI 提供支持,利用先进的微调技术,允许用户仅需几次点击即可将想法变为现实。该系统通过直接在视频上训练的高效可扩展变换器模型,确保物理准确性、一致性和富有事件感的镜头,能够从静态快照生成流畅的动态视频,理解物理世界中的互动和物理现象。
Stable Video是一个最先进的生成AI视频模型,旨在将图像转化为视频或将文本转化为视频,拓展了AI驱动内容创作的边界。
SoraPrompt是一个AI模型,可以根据文本指令创建逼真和富有想象力的场景。该项目将持续更新最新的视频和相关的提示,以展示Sora技术的生成能力。
OpenAI Sora是一个能够根据文本指令生成逼真和富有想象力场景的AI模型。用户只需提供描述所需场景的文本指令,Sora便会根据这些指令生成相应的视频。