EchoMimicV2是一个数字人项目,支持生成引人注目的半身人体视频,利用音频姿势动态协调策略增强细节表现力,采用阶段特定的去噪损失和无缝整合头像数据,提供新基准用于评估半身人体动画效果。
echomimic_v2 是 echomimic 的升级版本,从数字脸升级到数字人,支持通过输入图像、音频和手势生成高度逼真的数字人。该工具集成了音频处理和手势输入,增强了交互体验,适用于虚拟主播、虚拟助手、教育、娱乐等多种场景。
MusePose是一种用于虚拟人生成的姿势驱动图像到视频框架,其结果质量超越了同一主题中几乎所有当前开源的模型。
Algo是一个专注于视频自动化的数据可视化工作室,能够将数据转化为可扩展的视频内容。用户通过创意和技术两个阶段,进行数据分析、故事板设计、视频制作并最终实现自动化视频创建。
Stable Video是一个最先进的生成AI视频模型,旨在将图像转化为视频或将文本转化为视频,拓展了AI驱动内容创作的边界。
VideoTuna是一个集成了多种视频生成模型的代码库,支持从文本到视频、图像到视频的生成,并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型,如CogVideoX、Open-Sora、VideoCrafter等,能够处理不同分辨率的生成任务。此外,VideoTuna还提供了丰富的后处理功能,如视频到视频的后处理和增强模块,并计划推出3D视频VAE和可控面部视频生成模型,进一步扩展应用场景。