Cosmos-Predict1是由Nvidia开发的物理AI世界基础模型,能够从文本或视频提示生成世界状态,并通过预测帧合成连续运动。该项目特别适用于自动驾驶和机器人训练领域,提供高效的图像和视频分词器,支持Text2World和Video2World生成。模型参数范围从40亿到150亿,可根据推理需求选择,生成物理感知视频。