Emu Video 是由 Meta AI 团队开发的基于扩散模型的文本到视频生成工具。它通过两步法工作:首先从文本生成图像,然后基于该图像和文本生成视频。该工具支持多种输入方式,包括纯文本、文本加图片,或图片加文本提示,灵活适应不同用户需求。它在 3400 万视频文本对的数据集上训练,生成 4 秒长的高清视频,分辨率为 512×512 像素,帧率为每秒 4 帧。目前主要用于生成 AI 研究领域,尚未公开供一般用户使用。