MEMO是一款先进的音频驱动说话视频生成模型,通过记忆机制、情感感知和多模态注意力机制,解决了长期一致性保持、情感表达和音唇表情对齐的问题。生成的视频比Echomimic更自然且更具表现力,支持处理不同图像风格,如肖像、雕塑、数字艺术和动画等。