FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。
一种在视频生成中进行运动定制的新颖方法,解决了在视频生成模型中彻底探索运动表示方面存在的广泛差距。
Topaz Video AI是由Topaz Labs开发的一款先进的人工智能工具,旨在彻底改变专业人士提升和放大视频的方式。该软件利用AI的力量执行多种任务,显著提高视频画质,对于摄影师、电影制作人、内容创作者和后期制作专业人士来说是不可或缺的工具。
MagicAnimate Playground是一个开创性的开源项目,旨在简化动画创建,允许用户从单张图片和运动视频中生成动画视频。该网站聚合了相关内容,便于学习和实际应用。
OmAgent是一个多模态智能体系统,专注于利用多模态大语言模型能力以及其他多模态算法来处理各种多模态任务。它提供轻量级智能体框架omagent_core,专为解决多模态任务设计,并支持超长复杂视频理解,将长视频理解转换为多模态RAG任务,解决视频长度限制问题。此外,OmAgent采用递归的通用任务处理逻辑,基于Divide and Conquer算法思想,并自主使用‘进度条’工具,允许智能体重看视频细节以获取信息。
文本到视频分数(T2VScore),一个新的评估指标,从文本符合度和视频质量两个维度全面评估视频生成。
AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。