腾讯开源的HunyanVideo-I2V是基于HunyanVideo框架开发的图像到视频生成模型,专注于从单张静态图片生成高质量动态视频(如跳舞视频)。它采用Transformer架构和全注意力机制,结合3D VAE技术压缩视频数据,支持通过文本提示指导动作生成。作为目前开源领域最大的视频生成模型之一(130亿参数),其目标是为开发者提供可定制化的视频生成工具,弥合闭源与开源模型的差距。
HunyanVideo 是由腾讯开发的开源视频生成模型,拥有 13 亿参数,是目前最大的开源视频生成模型。它支持从文本描述生成视频,具有超现实画质、高语义一致性、流畅的运动画面和原生镜头转换等特点,适用于广告宣传、创意视频生成等商业场景。用户可以通过 GitHub 和 Hugging Face 访问模型权重、推理代码和算法,并通过腾讯元宝 APP 申请试用,API 也已开放测试。
VGen是由阿里巴巴集团通义实验室开发的开源视频生成代码库,集成了多种先进的视频生成模型,包括I2VGen-XL、VideoComposer、HiGen、TF-T2V、InstructVideo、DreamVideo、VideoLCM等。它能够从文本、图像、运动轨迹等输入生成高质量视频,并支持多种视频生成工具,如可视化、采样、训练、推理、联合训练、加速等。VGen具有高度的扩展性和完整性,适用于多种视频生成任务。
SkyReels-V1是昆仑万维开源的中国首个面向AI短剧创作的视频生成模型,基于千万级高质量影视数据进行微调,支持文生视频和图生视频。该模型在生成逼真的面部表情动画、准确反映人类情绪、电影质感等方面表现优异,具有自研的数据清洗与标注管线,支持精准的动作识别与场景理解。
i2vgen-xl是一个最新的开源视频生成模型,基于先进的深度学习技术,能够支持高质量视频生成,并且开放源代码,便于用户自定义和扩展。该模型可以处理多种输入格式,适用于多种应用场景。
Allegro是一个新的开源视频生成模型,能够支持多种内容的创建,包括人类和动物的特写镜头,以及各种动态场景。该模型可以生成720x1280分辨率、15 FPS的详细6秒视频,并支持使用EMA-VFI技术将帧率提高到30 FPS。Allegro具有175M参数的VideoVAE和2.8B参数的VideoDiT模型,能够在BF16模式下使用9.3 GB的显存,且上下文长度达到79.2k,相当于88帧。
智谱刚发布的最新CogVideoX1.5模型,能够生成高质量的视频内容,支持多种分辨率及时长的视频生成。
Animate Old Photos是一个利用Kling AI技术将静态旧照片转换为生动视频的项目,旨在通过动态效果让陈旧的故事重现生机。用户可以轻松上传照片,系统会智能处理并生成动画视频,带给人们新的视觉体验。
CoDi-2是一种多功能、交互式的多模态大语言模型 (MLLM),它可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。
AI Art Generator是一个强大的AI艺术生成器,允许用户快速生成和编辑高达1080p的艺术作品。用户可以通过Discord加入社区或下载扩展来使用该工具。此外,它还提供AI艺术图像搜索功能,帮助用户找到AI生成的库存艺术和照片。
AI Anime Generator是一个免费的AI工具,允许用户创建令人惊叹的动漫艺术作品。用户可以选择多种风格,自定义角色,并设计动态场景。该工具易于使用,能够输出高质量的艺术作品,帮助用户释放创造力,瞬间实现他们的动漫想法。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型