Cosmos-Predict1开源 – 物理AI世界生成基础模型

Cosmos-Predict1是由Nvidia开发的物理AI世界基础模型，能够从文本或视频提示生成世界状态，并通过预测帧合成连续运动。该项目特别适用于自动驾驶和机器人训练领域，提供高效的图像和视频分词器，支持Text2World和Video2World生成。模型参数范围从40亿到150亿，可根据推理需求选择，生成物理感知视频。

Cosmos-Predict1的特点:

1. 包含扩散模型和自回归模型，支持Text2World和Video2World生成
2. 提供高效的图像和视频分词器，优化生成效率
3. 参数范围从40亿到150亿，可根据推理需求选择
4. 特别适用于生成物理感知视频，用于自动驾驶和机器人训练
5. 支持世界生成和后训练，用于加速物理AI开发

Cosmos-Predict1的功能:

1. 用于预训练模型的推理，生成世界状态或视频
2. 后训练以定制特定领域数据集，生成定制化的输出
3. 生成自动驾驶和机器人训练所需的合成数据
4. 通过预测帧合成连续运动，增强训练数据的多样性
5. 在GitHub和Hugging Face上获取模型和相关资源

相关导航

VideoTuna开源项目 – 多功能视频生成模型工具

VideoTuna是一个集成了多种视频生成模型的代码库，支持从文本到视频、图像到视频的生成，并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型，如CogVideoX、Open-Sora、VideoCrafter等，能够处理不同分辨率的生成任务。此外，VideoTuna还提供了丰富的后处理功能，如视频到视频的后处理和增强模块，并计划推出3D视频VAE和可控面部视频生成模型，进一步扩展应用场景。

Luma Ray2官网 – 先进的视频生成模型

Luma Ray2 是 Luma AI 推出的一种大型文本到视频生成模型，能够从文本或图像提示生成逼真的视频，展现自然且连贯的运动。它基于多模态架构训练，计算能力是前代 Ray1 的 10 倍，优化了运动连贯性、物理模拟和光影细节，生成接近电影级质感的视频。目前仅付费用户可用，未来计划扩展视频编辑和格式转换功能。

hunyan video官网 – 腾讯开源的高质量视频生成模型

hunyan video 是腾讯公司于2024年开源的一个重量级视频生成模型，拥有约13亿参数（原介绍为130亿，可能存在拼写错误），是目前最大的开源视频生成模型之一。该模型通过文本或图像生成高质量视频，尤其在图像质量、动态流畅性和语义理解方面表现优异。支持多模态大语言模型作为文本编码器，并采用3D VAE技术进行数据压缩。生成的视频质量可媲美电影级，支持多角度镜头自动切换，尤其对中国风格内容有较强表现力。用户可通过官网或元宝APP在线体验，或通过GitHub下载代码和模型权重自行部署。

MobilityGen开源项目 – 移动机器人数据收集工具

MobilityGen是基于NVIDIA Isaac Sim构建的工具集，旨在简化移动机器人的数据收集过程，支持算法训练和测试。它支持多种类型的机器人，提供丰富的真实世界数据，并支持多种数据收集方法。

Make-Your-Anchor开源项目 – 自动生成精确动作视频

Make-Your-Anchor 是一个自动生成具有精确躯干和手部动作的视频的项目，只需一个人的一分钟视频剪辑进行训练。

Wan视频生成模型官网 – 低显存高质量视频生成

通义开源的Wan视频生成模型，显存要求超低，仅需8G显存即可运行高质量视频生成。该模型支持文生视频、图生视频、视频编辑、文生图等多种功能，是业界首个双语视频模型，能够同步生成中英字幕。

RealCam-Vid开源项目 – 高质量可控视频数据集

RealCam-Vid是一个专为生成模型设计的高质量可控视频数据集，旨在助力动态场景与相机运动的统一学习。该数据集结合了动态场景与绝对尺度的相机轨迹，填补了现有数据集的空白。通过提供高精度的相机姿态注释，RealCam-Vid显著提升了模型对真实世界的泛化能力。数据来源广泛，涵盖了10种以上的场景类型，使其成为研究和开发视频生成模型及相机控制算法的理想选择。

EgoMimic开源项目 – 基于第一人称视角的机器人技能学习框架

EgoMimic是一个基于第一人称视角的模仿学习框架，专为机器人技能学习而设计。它支持处理来自人类Aria眼镜的数据以及机器人远程操作的数据，提供了完整的数据处理、训练和部署流程，使得机器人可以高效地学习和执行各种任务。

HunYuanVideo官网 – 腾讯开源的高质量视频生成模型

HunYuanVideo 是由腾讯开发的开源大型视频生成模型，专注于从文本描述生成高质量视频。该模型拥有13亿参数，是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记，基于Transformer架构，具备全注意力机制，支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异，优于其他领先模型。

Veo 2官网 – Google 的尖端视频生成模型

Veo 2 是 Google 开发的一种先进的视频生成模型，能够从文本或图像生成高质量视频。它支持自然运动和逼真动画，提供 720p 到 4K 的分辨率，视频长度为 5-8 秒（24 FPS），并可扩展至更长时间。Veo 2 支持 16:9（横屏）和 9:16（竖屏）两种宽高比，具备电影级别的控制功能，如镜头选择、摄像机运动和景深控制。此外，Veo 2 还包含安全功能，如不可见的 SynthID 水印，用于标识 AI 生成内容，降低误导信息和误归因风险。

kě huà 1.5 mò xíng官网 – 快手AI平台的绘图与视频生成模型

kě huà 1.5 mò xíng 是快手科技旗下 kě lín AI 平台的核心模型，集成图像生成（Ketu 1.5）和视频生成（Keling 1.5）能力，专注于生成高质量亚洲人像静态图片及动态视频。通过自研的 DiT 结构提升计算效率，支持画质增强、语义理解优化，尤其擅长温馨场景如母女互动的创作。平台全球用户超360万，累计生成1亿多张图片和3700万视频。

Latte-视频生成的潜扩散Transformer模型

Latte是一种新的潜扩散Transformer模型，用于视频生成，能够从输入视频中提取时空token，并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能，支持文本到视频生成任务，适用于多种复杂的时空视频生成需求。

Wan2.1-quantized开源项目 – 优化视频生成模型

Wan2.1-quantized是一款专为消费级显卡（如3090/4090）设计的开源视频生成模型，经过优化后，仅需8.19GB显存即可运行，适配几乎所有消费级显卡。它支持多任务处理，包括文本到视频、图片到视频、视频编辑等，并且是首个支持中英文文本生成的视频模型。

Veo 2官网 – 谷歌DeepMind的高质量视频生成模型

Veo 2是谷歌DeepMind开发的最先进视频生成模型，能够根据文本、图像或视频提示生成高质量、逼真的视频。它支持高达4K分辨率，提供多种电影和视觉风格，特别适合广告、营销、娱乐和教育等领域。Veo 2具有增强的真实性和保真度，支持复杂的摄影指令，并能模拟真实世界的物理和人类动作。此外，它与谷歌云平台Vertex AI集成，便于开发者使用。

SkyReels-V1开源项目 – 首个开源的以人为本的视频生成模型

SkyReels-V1是昆仑万维开源的中国首个面向AI短剧创作的视频生成模型，基于千万级高质量影视数据进行微调，支持文生视频和图生视频。该模型在生成逼真的面部表情动画、准确反映人类情绪、电影质感等方面表现优异，具有自研的数据清洗与标注管线，支持精准的动作识别与场景理解。

暂无评论

暂无评论...