Open-Sora-Plan开源项目 – 复现OpenAI Sora模型的视频生成项目

Open-Sora-Plan 是由北京大学YuanGroup团队与北大-兔展AIGC联合实验室共同发起的项目，旨在复现OpenAI的Sora模型。该项目结合了视频VQ-VAE、Denoising Diffusion Transformer等技术，支持可变长宽比、分辨率和持续时间的视频生成。项目还提供了高质量的数据清洗策略、提示精炼器等功能，以增强对联合时空特征的捕获，并应用于创意短片生成、学术研究等领域。

Open-Sora-Plan的特点:

1. 复现OpenAI的Sora模型
2. 结合视频VQ-VAE技术
3. 结合Denoising Diffusion Transformer技术
4. 支持可变长宽比、分辨率和持续时间
5. 更强大、更经济的WFVAE，高效捕获不同频域信息
6. 提示精炼器，优化短文本输入
7. 高质量的数据清洗策略
8. 基于Open-Sora Plan V1.3模型生成创意短片
9. 支持复杂故事情节的构建
10. 动态分辨率和动态持续时间设置

Open-Sora-Plan的功能:

1. 使用WFVAE进行高效的VAE学习
2. 利用提示精炼器处理和优化短文本
3. 应用高质量的数据清洗策略改进数据集
4. 采用DiT进行成本效益高的学习
5. 生成不同长宽比、分辨率和持续时间的视频
6. 使用模型生成独特的AI创意短片
7. 根据用户输入的情节构建故事
8. 探索不同结局的情节发展
9. 应用于游戏、影视等领域的创意创作
10. 用于视频生成模型的复现与研究

相关导航

Snack Contents官网 – AI驱动的内容生成平台

SnackContent是一个人工智能驱动的平台，能够在几秒钟内生成和自动化用户的书面和视频内容创作。它自动创建SEO优化的书面内容，并将其转化为从每日网络数据中获取的短小、易于分享的视频。使用SnackContent，用户可以轻松且经济高效地创建引人入胜的内容，无需灵感或技术技能。

Short AI官网 – 一键制作社交媒体视频的AI工具

Short AI是一个基于AI的工具，通过预制模板、内容布局和AI辅助生成字幕，简化了创建病毒式社交媒体视频的过程，使视频营销变得更加便捷和高效。

Pyttipanna官网 – 基于机器学习的视频创作平台

Pyttipanna是一个为Pytti 5提供接口的框架，旨在利用机器学习模型创建和渲染视频。用户可以通过结构化、叙述和实验化视频创作的提示来实现自己的创意。

MiniMax官网 – 多模态AI服务平台

MiniMax是一家成立于2021年12月的通用人工智能科技公司，专注于多模态大模型的研发与应用。公司通过自主研发的万亿参数MoE大模型，提供多样化的AI服务，包括文本、视频、图像、音频和音乐生成。MiniMax API开放平台为企业和开发者提供安全、灵活、可靠的API服务，支持快速搭建AI应用。用户可以通过注册试用体验其功能，演示站提供调试模式和提示词模板，降低使用门槛。

360 智脑官网 – 多模态生成AI大模型

360 智脑是由奇虎 360 公司独立开发的 AI 大模型，拥有数百亿参数规模和多模态生成能力。它支持文本生成、图像生成、文本到视频转换等功能，涵盖生成创作、多轮对话、逻辑推理等十大核心能力，旨在为用户提供强大的 AI 辅助工具。其训练基于 3.4 万亿 token 的语料库，支持多达 360K 的上下文长度，适用于复杂的 AI 交互场景。

Doubao官网 – 火山引擎开发的AI模型家族

Doubao是由火山引擎（VolcEngine）开发的综合性AI模型家族，涵盖自然语言处理、视觉理解、语音合成、视频生成等多种AI任务。其模型在知识、代码、推理和中文等多个基准测试中表现优异，部分模型如Doubao-1.5-pro优于GPT4o和Claude 3.5 Sonnet，达到全球领先水平。Doubao模型广泛应用于ByteDance的产品，如剪映、即梦AI和醒图工具，覆盖智能座舱、在线教育、社会娱乐、智能客服等领域。

Awesome-FLUX-DiT开源项目 – 基于FLUX/DiT的扩散模型集合

Awesome-FLUX-DiT是一个基于FLUX/DiT的扩散模型集合，支持图像和视频的生成、编辑、重建和修复等功能，旨在为用户提供丰富的多媒体处理能力。

H1111开源项目 – 视频生成的WebUI工具

H1111是一个基于kohya-ss的musubi tuner推理脚本的图形用户界面（GUI），主要用于Hunyuan视频模型的推理任务。它支持多种模型的推理，包括Hunyuan-t2v、Hunyuan-v2v、WanX-t2v、WanX-i2v、SkyReels-i2v和SkyReels-t2v。用户可以通过调整注意力机制（如xformers、sage attention等）来优化显存使用，并提供了LORA模型转换工具。该项目还支持Windows和Linux系统的安装，提供了详细的安装和运行指南。

Deforum Stable Diffusion开源项目 – 生成视频的Stable Diffusion插件

Deforum是Stable Diffusion的官方扩展，专为AUTOMATIC1111的WebUI设计，用于生成动态视频。它允许用户通过初始化图片和视频创建从现实到奇幻的过渡效果，支持2D和3D动画模式，并提供详细的参数设置，如关键帧、提示词、初始化图片或视频、ControlNet等。用户可以通过设置运动参数和提示词来生成个性化的视频内容。

Art.ai官网 – 利用AI创作艺术的平台

Art.ai是一个利用人工智能创作艺术的平台，提供一个空间让艺术家表达创意，同时也让艺术爱好者能够访问AI生成的艺术作品。Art.ai将作为一个文本到图像、视频和声音创作的平台，打造一个所有创作的市场。

Ai Listify官网 – 优质AI工具的汇总平台

Ai Listify 是一个顶级的人工智能资源目录，汇集了前沿的AI工具。通过精心挑选的工具，用户可以释放创新的力量，探索、学习并提升自己的AI技能。

Neural Network Diffusion官网 – 利用扩散模型生成高性能神经网络参数

该项目展示了如何利用扩散模型生成高性能的神经网络参数。通过自动编码器提取潜在表示，并训练扩散模型从随机噪声合成这些表示，从而生成新的网络参数子集。

Oniooo官网 – 一站式AI创作平台

Oniooo通过先进的AI工具，帮助用户创建令人惊叹的图像、视频、音乐等内容，简化创作流程。用户只需输入创意请求，Oniooo便能提供符合用户愿景的结果，体验未来的创意世界。

FraxAI官网 – 生成式AI模型与工具平台

FraxAI是一个提供生成式AI模型、工具、提示工程技术、资源、指南和教程的平台，支持Stable Diffusion和ChatGPT等技术。用户可以探索各种可用模型和工具，利用提示工程技术创建有效的提示，以生成文本、图像、代码、音频、视频等。同时，平台还提供指南和教程，帮助用户深入了解生成式AI和提示工程。

豆包 AI 桌面客户端官网 – 桌面 AI 助手，提升生产力

豆包 AI 桌面客户端是一款由豆包 AI 开发的新型桌面应用程序，支持 Mac 和 Windows 系统。该客户端通过与本地操作系统的深度整合，提供多种 AI 驱动的功能，旨在增强用户在桌面环境中的生产力。其主要功能包括 AI 划词、AI 启动器、桌面常驻、AI 搜索、AI PDF 伴读、快速词翻译、一键桌面和视频生成等。

AiBucket官网 – AI工具的汇聚地

AiBucket是一个AI工具目录，提供超过2000种工具，涵盖多个类别，用户可以搜索特定工具、浏览热门类别及访问经过验证的工具和机构。

Step-Video-TI2V开源项目 – 开源图生视频生成模型

Step-Video-TI2V是阶跃星辰（StepFun）推出的开源图生视频（Image-to-Video）生成模型，拥有300亿参数，能根据文本描述和图像输入生成最长102帧的视频。模型基于深度压缩的变分自编码器（Video-VAE），实现了16×16的空间压缩和8×的时间压缩，显著提高了训练和推理效率。用户可以通过设置运动分数（motionscore）来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。