Cosmos-Predict1是由Nvidia开发的物理AI世界基础模型,能够从文本或视频提示生成世界状态,并通过预测帧合成连续运动。该项目特别适用于自动驾驶和机器人训练领域,提供高效的图像和视频分词器,支持Text2World和Video2World生成。模型参数范围从40亿到150亿,可根据推理需求选择,生成物理感知视频。
该项目由Apple机器学习团队开发,通过大规模自弈(self-play)在模拟环境中训练自动驾驶策略,完全无需人类驾驶数据。研究使用高效模拟平台GigaFlow和优势过滤算法,模拟了16亿公里驾驶经验,在三大基准测试中达到最先进水平,驾驶行为自然且鲁棒性极高(平均17.5年发生一次事故)。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型