echomimic_v2 是 echomimic 的升级版本,从数字脸升级到数字人,支持通过输入图像、音频和手势生成高度逼真的数字人。该工具集成了音频处理和手势输入,增强了交互体验,适用于虚拟主播、虚拟助手、教育、娱乐等多种场景。
EchoMimicV2是一个数字人项目,支持生成引人注目的半身人体视频,利用音频姿势动态协调策略增强细节表现力,采用阶段特定的去噪损失和无缝整合头像数据,提供新基准用于评估半身人体动画效果。
JoyGen是一款音频驱动的3D深度感知会说话的脸视频编辑工具,能够让视频中的人物根据音频自动做出逼真的表情和口型,为视频制作带来全新的体验。
能让Python直接加载和操作Live2D模型的工具,无需通过Web Engine等间接手段渲染,可实现模型加载、口型同步、面部表情控制等,让虚拟角色在Python项目中“活”起来
该项目利用AI技术将任何文本在几分钟内转化为生动的动画故事,提供视觉效果、配音和音乐,让用户无需写作或绘画技能即可创作故事。用户只需在平台上输入文本,选择所需的风格、视觉效果和叙述选项,AI技术将自动生成故事。
Luvvoice 是一个免费的文本转语音工具,提供语音合成服务,支持多种语言和超过200种声音。用户只需输入文本,选择语言和声音,即可直接收听或下载生成的mp3文件。
该系统通过声音输入生成跨模态的3D面部模型,支持多种语音输入。
Animatable是一个利用先进的人工智能技术,将视频转换为动态动画的平台。用户可以选择不同的风格,生成动画,并对每个细节进行调整,最终观看变换的过程。它不仅增强了视觉故事讲述的效果,还能激发想象力和创造力。
OctiAI V2 是一个专门为 ChatGPT、Mid Journey 及其他多种内容创作 AI 模型设计的提示生成器,旨在通过使用图像和文本提示来增强创造力和改善效果。
Hallo3 是复旦大学与百度联合开源的高动态与真实感肖像动画生成框架,基于扩散变换器网络(Diffusion Transformer Networks),能够生成高度动态和逼真的视频。该项目支持处理非正面视角的肖像动画,渲染肖像周围的动态物体,生成沉浸式逼真背景,并具备强大的泛化能力。通过身份参考网络确保视频序列中的面部身份一致,支持语音音频驱动的连续视频生成。
Enginn Studio 是一个强大的语音合成工具,支持从原型制作到生产阶段的角色配音,能够在30种语言中以100倍的速度生成声音。用户可以浏览成千上万的声音选项,或使用VoiceMaker自定义自己的声音。
基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成框架。
LoRD是一个用于高保真动态人类建模的项目,采用局部4D隐式表示,能够生成真实感极强的人体模型。