该项目通过构建大规模人类偏好数据集和视频奖励模型,利用人工反馈改善视频生成模型,解决了运动不平滑、视频与提示错位等问题。项目包含182,000个跨多维度注释的数据集,开发了多维视频奖励模型VideoReward,并提出了三种基于流的对齐算法(Flow-DPO、Flow-RWR、Flow-NRG),显著提升了视频的视觉质量、运动质量和文本对齐度。
MusePose是一种用于虚拟人生成的姿势驱动图像到视频框架,其结果质量超越了同一主题中几乎所有当前开源的模型。
Champ 是一个基于3D参数指导的人体图像动画生成项目,旨在增强动画的可控性与一致性。它通过使用3D参数模型,准确捕捉复杂的人体几何形状和运动特征,能够在多个基准数据集上生成高质量的人体动画。
EchoMimicV2是一个数字人项目,支持生成引人注目的半身人体视频,利用音频姿势动态协调策略增强细节表现力,采用阶段特定的去噪损失和无缝整合头像数据,提供新基准用于评估半身人体动画效果。
AI Picasso - AI dance是一款通过上传面部照片生成有趣舞蹈的视频应用,用户可以轻松地制作和分享虚拟舞蹈,适用于社交平台如TikTok和YouTube短视频等。
PoseFormerV2通过利用频域分析,提供高效且鲁棒的3D人类姿态估计,能够在各种条件下表现出色。
XTalker是基于SadTalker的面部动画生成项目,专为第四代Xeon CPU优化,通过低精度推理和并行处理将推理速度提升10倍,旨在实现高效的面部动画生成。