星火画境是由讯飞(iFlytek)推出的一款AI驱动的短视频创作平台,旨在通过将用户输入的文本描述自动转换为视频内容,简化视频制作流程。该平台支持多种视频类型,包括短剧、预告片和音乐视频(MV),并提供一键发布到社交平台的功能。用户可以通过详细的文本描述生成视频脚本,并进行编辑和预览,最终生成高质量的视频内容。
WHEE 是由美图公司开发的高品质 AI 素材生成工具,提供多种 AI 视觉创作功能,包括文生视频、图生视频、文生图、图生图、画面拓展和局部修改等。这些功能旨在简化图像、视频和设计的生产,推进行业数字化,尤其在美学相关解决方案中表现出色。WHEE 适用于设计师、内容创作者和普通用户,帮助用户快速生成创意内容。
Ke Ling AI 是快手大模型团队开发的基于自研大模型的视频生成工具,能够生成长达 2 分钟、1080p 分辨率、30 帧每秒的高清视频,支持自由调整宽高比。其核心功能包括文生视频、图生视频和运镜控制,模拟现实世界的复杂运动模式和物理特性,展现强大的概念组合和想象力。
即夢AI是由剪映推出的AI創作平台,集成多種AI功能,幫助用戶從文字生成圖片和視頻,或從圖片生成視頻,顯著提升創作效率和體驗。該平台特別適合設計師、藝術家和內容創作者,提供智能化的創作支持,簡化創作過程,讓用戶輕鬆實現創意圖片、動態視頻,甚至創建虛擬角色。
寻光是由阿里巴巴达摩院视觉技术实验室开发的AI视频生成平台,目前处于内部测试阶段。该平台旨在通过人工智能技术为用户提供从故事板生成、角色管理、视觉素材创作到视频内容编辑的全流程视频制作工具。平台可能集成了如Wan 2.1等先进AI模型,能够从文本和图像输入生成高质量视频内容,适用于广告、讲故事、教育材料等多种场景。
海螺AI是由MiniMax开发的AI平台,专注于通过AI技术生成视频和音乐。用户可以通过输入文本提示生成6秒高清视频,或基于歌词和风格生成音乐。平台界面友好,功能强大,适合内容创作者、教育者和企业使用。目前,这些功能限时免费,帮助用户快速创建高质量的多媒体内容。
開拍(Kaipai)是美圖公司推出的一款专为口播视频创作者设计的AI视频制作工具。它提供从脚本撰写到后期编辑的全面解决方案,帮助用户高效创建专业的口播视频。開拍具备多种功能,如AI脚本撰写、文本提取、AI提词器、高清画质、智能编辑、美化工具、独家滤镜和海量背景音乐等,覆盖了视频制作的各个阶段。用户可以通过下载应用或访问网站使用,并可选择订阅VIP服务获取更多高级功能。
通义万相是阿里巴巴云开发的多模态AI模型,能够从文本或图像生成高质量视频,支持多种艺术风格(如中国风、超现实主义等),生成的视频自带音频。最新版本WanX 2.1在2025年1月发布,进一步提升了视频生成的质量和速度,特别是在处理复杂运动和空间关系方面表现出色。该工具广泛应用于电影电视制作、动画设计、广告创作、教育资源生产和文化遗产保护等领域。
Seaweed模型是一个基于Transformer架构的AI视频生成工具,支持从文本和图像生成高质量的视频。该模型在潜在空间中进行训练,能够生成具有丰富细节的影视级视频,适用于电子商务营销、动画教育等多种场景。
PixelDance 是一个由字节跳动的Doubao模型团队开发的视觉AI项目,主要功能是支持文本生成视频和图像生成视频,能够生成长达10秒的视频片段。该项目集成在VolcEngine的AI模型服务平台中,提供多种创意视频生成应用。其特点包括精确的语义理解、动态和运镜效果、多镜头一致性生成以及多风格和多比例兼容性。
Doubao是由火山引擎(VolcEngine)开发的综合性AI模型家族,涵盖自然语言处理、视觉理解、语音合成、视频生成等多种AI任务。其模型在知识、代码、推理和中文等多个基准测试中表现优异,部分模型如Doubao-1.5-pro优于GPT4o和Claude 3.5 Sonnet,达到全球领先水平。Doubao模型广泛应用于ByteDance的产品,如剪映、即梦AI和醒图工具,覆盖智能座舱、在线教育、社会娱乐、智能客服等领域。
MOKI是美图公司推出的一款基于AI技术的视频短片创作工具,旨在帮助创作者高效制作动画短片、网络短剧、故事绘本和音乐视频(MV)。它利用美图自研的Miracles Vision大模型,提供智能剪辑、自动配乐、音效生成、字幕生成等功能,简化了视频制作流程,特别适合需要快速生成内容的创作者。MOKI还支持AI生成分镜图、角色设计等功能,覆盖从脚本到成片的整个创作周期。
豆包视频生成项目是字节跳动旗下AI模型“豆包”的一部分,专注于视频生成功能。该项目基于高动态视频生成和扩散对抗后训练的研究,具备优秀的语义理解能力,能将文本或图像信息转化为生动逼真的视频内容,支持动态效果和运镜移动,并确保多镜头生成的一致性。该项目包括PixelDance和Seaweed两个模型,分别针对短视频和高动态场景优化,适用于企业和创意专业人士的视频制作。
PixVerse AI 是一个基于 AI 的视频生成平台,允许用户通过文本提示或图像创建高质量的视频。平台支持多种效果和样式,如‘我们是毒液!’,并提供文本转视频和图像转视频功能。免费版每天提供一定信用额度,付费订阅计划则提供更多信用和更快生成速度,适合内容创作者、营销人员和教育工作者。
ChatGPT Pro是OpenAI提供的高级订阅服务,月费约为24美元,专为需要强大AI能力的用户设计。它提供无限制访问多种高级AI模型,包括o1、o1-mini、GPT-4o和Advanced Voice,并包含o1 pro模式,适用于需要深度计算资源的复杂问题。该服务在数学、科学和编码等领域表现优异,并支持多媒体生成和深度研究扩展。
DrawingSpinUp是一个AI工具,能够从单张角色绘画生成高质量的3D动画。它通过移除角色轮廓并恢复细节,结合骨骼瘦化变形算法,使角色能够进行旋转、跳跃等复杂动作。该项目在Siggraph Asia 2024上发表,实验证明其优于现有的2D和3D动画生成方法。
FaceFusion 是一个开源 AI 项目,专注于人脸置换和增强技术。它通过深度学习算法实现对图片和视频中的人脸进行识别、替换、增强等操作。项目支持多种功能,包括人脸交换、表情控制、唇形同步和年龄修改等,广泛应用于娱乐、创意设计和研究领域。安装需要一定的技术技能,但提供了 Windows 和 macOS 的安装器以简化流程。
FlipSketch 是一个基于文本引导的草图动画生成工具,能够将静态草图转换为动态动画。通过微调的文本到视频(T2V)模型,FlipSketch 可以根据输入的草图和文本描述生成相应的动画。其核心机制是通过将输入草图的参考噪声与模型的注意力机制相结合,实现从静态图像到动态视频的转换。项目提供了详细的安装和使用指南,并支持在 Hugging Face 平台上进行在线演示。
TAICHI-flet是一款基于Flet框架开发的Windows桌面应用,集成了多种娱乐和实用功能。用户可以通过该应用浏览图片、音乐、小说、动漫等资源,同时还支持GPT对话、AI绘画等高级功能。应用界面美观简洁,提供了丰富的个性化设置选项,如主题切换、壁纸调整等。虽然开源代码已停止更新,但软件包仍在持续更新中,确保用户能够享受到最新的功能体验。
LatentSync 是字节跳动和北交大开源的AI工具,基于音频条件潜在扩散模型,通过交叉注意力层将音频信号集成到U-Net模型中,直接生成与音频匹配的唇部动作。该工具还引入了Temporal REPresentation Alignment(TREPA)机制,增强时间一致性,确保生成的视频在时间上保持连贯。
Goku是由字节跳动与香港大学联合开发的一款基于Rectified Flow Transformer架构的视频生成模型。它通过精细的数据处理、模型设计和流式生成技术,实现了高质量的图像和视频生成。Goku支持多种生成任务,包括文本到视频、图像到视频和文本到图像生成,尤其在虚拟数字人和广告场景中表现突出。在权威测试VBench中,Goku的文本到视频生成得分达84.85,创下新纪录(SOTA)。
Anime4K 是一套开源的高质量实时动漫视频超分辨率和去噪算法,支持多种编程语言实现。它专为原生1080p动漫视频优化,能够在4K屏幕上实时提升画质,避免传统超分技术带来的不可逆损害和存储空间浪费。项目提供多种着色器模块,支持自定义处理,适用于Windows、Linux和macOS平台,无需高端GPU即可流畅运行。
TecoGAN是一个用于视频超分辨率的生成对抗网络(GAN),专注于生成具有时序一致性的高分辨率视频。该项目由慕尼黑工业大学的研究团队开发,旨在通过自监督学习提升视频生成中的时间连贯性。项目提供了推理、训练和下载训练数据的代码,并包含预训练模型。TecoGAN的生成能力在细节持久性和时空一致性方面表现出色,能够生成长时间保持细节的视频序列。
APISR是一个专注于动漫图像和视频的超分辨率模型,旨在通过提升画质分辨率来恢复和增强低质量、低分辨率的动漫图像和视频源。该项目特别针对真实场景中的各种退化问题,提供了多种超分辨率模型和权重,支持2x、4x等不同放大倍数的处理。APISR还提供了在线演示、本地Gradio推理、数据集处理、训练等功能,适用于动漫爱好者和研究人员。
AniPortrait是腾讯开源的一个项目,能够根据音频和静态人脸图像生成逼真的人脸动画,支持说话、唱歌等多种动态效果。该项目通过音频驱动,自动生成与口型一致的人脸动画,并且支持多种语言、面部重绘和头部姿势控制。AniPortrait的核心框架结合了深度学习模型,能够生成高质量的动画,并且支持通过视频进行人脸重绘。
DreamTalk 是一个基于扩散模型的音频驱动表达性头部生成框架,能够生成具有多种说话风格的高质量头部视频。它支持多种输入类型,包括歌曲、多种语言的语音、含噪声音频和领域外的肖像画。该项目旨在通过先进的扩散概率模型,实现精准的唇音同步和生动的表情生成,适用于学术研究和非商业用途。
Large World Model (LWM) 是一个通用的大环境多模态自回归模型,专注于处理长视频和书籍数据。它使用RingAttention技术进行训练,能够处理多达100万token的上下文,支持语言、图像和视频的理解与生成。LWM通过整合大量多样化的视频和书籍数据集,解决了现有语言模型在处理复杂、长任务时的不足,尤其在文本图像生成、文本视频生成等任务中表现出色。
FollowYourClick是由腾讯混元、清华大学和香港科技大学联合推出的图生视频模型。用户可以通过点击图片的特定区域并添加简短的提示词,将静态图片转换为动态视频。该项目通过简单的交互方式,实现了对图片中特定区域的动画生成,广泛应用于创意设计、教育演示、广告制作等领域。
CTRL-F-VIDEO 是一个开源项目,旨在帮助用户在视频中搜索特定的单词或短语。它主要针对YouTube视频,通过Chrome扩展实现搜索功能。项目利用OpenAI的Whisper模型将视频中的音频转换为文本,从而实现准确的搜索和匹配。搜索结果会被存储在json文件中,便于之后再次访问该视频时快速获取之前的搜索结果。项目还支持时间轴高亮显示,帮助用户快速定位关键词在视频中的位置。
animate-your-word 是一个基于视频扩散先验的自动化文本动画生成项目,旨在通过将静态文字转化为动态视觉元素,增强语义表达和动态效果。该项目结合了字母的语义变形和动画技术,使用户能够通过简单的提示生成具有复杂情感和信息的动态文字动画。