Cosmos-Predict1是由Nvidia开发的物理AI世界基础模型,能够从文本或视频提示生成世界状态,并通过预测帧合成连续运动。该项目特别适用于自动驾驶和机器人训练领域,提供高效的图像和视频分词器,支持Text2World和Video2World生成。模型参数范围从40亿到150亿,可根据推理需求选择,生成物理感知视频。
NVIDIA Cosmos 是一个开源平台,旨在模拟和构建物理世界的基礎模型,支持从数据整合到自定义微调的各个开发阶段。它主要用于为机器人和自动驾驶汽车创建逼真的物理环境,帮助开发者加速物理AI系统的开发。平台基于Transformer的自回归和扩散双架构模型,支持视频生成和世界模型开发,训练数据包括90万亿个token,涵盖2000万小时的自动驾驶、机器人和合成环境数据。
MobilityGen是基于NVIDIA Isaac Sim构建的工具集,旨在简化移动机器人的数据收集过程,支持算法训练和测试。它支持多种类型的机器人,提供丰富的真实世界数据,并支持多种数据收集方法。
gym-aloha是一个专为ALOHA环境设计的Gymnasium工具包,旨在提高机器人学习和训练的效率和趣味性。它提供了丰富的功能,支持多种任务模式和观测数据,特别适合基于强化学习的机器人训练。
Eureka是一个程序,能够自动生成算法来训练机器人,使它们能够更快地学习复杂的技能。生成的奖励程序在超过80%的任务上表现优于由专家编写的人工程序。
EgoMimic是一个基于第一人称视角的模仿学习框架,专为机器人技能学习而设计。它支持处理来自人类Aria眼镜的数据以及机器人远程操作的数据,提供了完整的数据处理、训练和部署流程,使得机器人可以高效地学习和执行各种任务。
VIMA是一款连接了机械臂的语言模型(LLM),能够接收多模态的指令,支持文字、图片、视频等输入形式。该系统能够逐步感知环境并采取实际动作,支持多模式提示,使任务描述简单灵活,统一多种任务,如视觉目标达到、视频演示模仿、学习新概念和满足安全限制。作为一个开源项目,VIMA提供了代码、预训练模型、数据集和物理模拟基准,无需付费或填写表格,便于用户使用和开发。
Scenario是一个基于Web的AI工具,使游戏专业人士能够以无与伦比的简便性和控制力生成高质量、风格一致的游戏资产。用户只需收集角色、道具、背景和概念艺术等训练数据并安全上传,即可轻松训练独特的AI生成器。
T5X Retrieval是Google Research开发的一个JAX实现的T5(文本到文本转换变换器),针对检索应用进行了优化。
Grid.ai是一个专注于机器学习的平台,旨在使最先进的AI研究民主化,而不是关注基础设施。用户可以通过注册网站并参考提供的文档和教程来使用Grid.ai。