Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型,拥有300亿参数,能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),显著提高了训练和推理效率。配备双语文本编码器,支持中英文提示输入,并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。
ComfyUI 是一款功能强大的扩散模型图形用户界面 (GUI) 和后端,提供了一种直观的界面,用于设计和执行复杂的工作流。它被广泛认可为稳定扩散建模的领先 GUI,支持图像、视频和音频转换。ComfyUI 通过节点/图/流程图的方式,允许用户无需编写代码即可创建复杂的稳定扩散工作流。它支持多种模型和优化,适用于 Windows、Linux 和 macOS 平台。
Depth Anything V2 是一种单目深度估计的强大基础模型,显著改善了细节刻画和鲁棒性。它提供更快的推理速度、更少的参数和更高的深度精度,适用于各种单目深度估计应用。项目提供了四种不同规模的预训练模型,支持图像和视频的深度估计,并且可以通过 Transformers 和 Apple Core ML 进行便捷的使用。
MLX-VLM 是一个专为在 Mac 上进行视觉语言模型(VLM)推理和微调而设计的 Python 包。它利用 MLX 框架,针对苹果芯片进行了优化,支持多种 VLM 模型,如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力,支持图像、视频和文本的组合输入,并提供了 LoRA 和 QLoRA 微调方法。
Frigate是一款专为Home Assistant设计的完整本地NVR,集成了AI对象检测功能。它使用OpenCV和TensorFlow在本地为IP摄像头执行实时对象检测,支持低开销运动检测、基于事件的视频录制、7x24小时录制、RTSP重新流式传输、WebRTC和MSE支持。Frigate与Home Assistant紧密集成,适用于家庭安全和监控、实时对象检测和警报、访问控制和识别、行为分析和模式识别等场景。
EasyVolcap是一个基于PyTorch的库,专注于加速神经体积视频的研究,特别是在体积视频捕获、重建和渲染领域。它提供了预构建的深度学习模型,支持自定义网络构建,允许研究人员灵活地创建新算法。通过协同优化器、采样器和渲染器的设计,实现了高效的模型训练和渲染。此外,EasyVolcap还提供了预训练模型和数据集,以加速研究过程,并已被广泛应用于神经体积视频算法的研究和开发。
LiveKit Agents 是一个完全开源的框架,旨在帮助开发者构建能够实时处理语音、视频和文本的多模态AI应用。它提供了一套完整的工具和接口,简化了AI代理的开发流程,集成了语音管道代理、多模态代理、实时媒体传输、任务调度、电话集成和数据交换等功能。开发者可以根据具体应用场景选择合适的模型和服务,并与 LiveKit 的 Telephony Stack 无缝集成,使代理能够拨打或接听电话。
LiveTalking 是一个基于 PyTorch 框架的实时交互流式数字人项目,旨在实现音视频同步对话。它整合了 ER-NeRF、MuseTalk 和 Wav2Lip 等先进模型,利用神经辐射场技术,通过音频输入生成逼真的数字人表情和动作。项目支持声音克隆、数字人被打断、全身视频拼接等功能,适用于多种实时交互场景。
VILA 是一个开源视觉语言模型 (VLM) 系列,旨在优化效率和准确性,适用于边缘、数据中心和云计算环境。它采用交错图像-文本预训练方法,支持多图像处理,并具有强大的上下文学习能力,能够快速学习新概念。VILA 在视频理解、多图像推理等任务中表现出色,广泛应用于研究和工业领域。
NVIDIA NeMo是一个可扩展的云原生生成式AI框架,专为研究人员和PyTorch开发者设计,支持大语言模型(LLM)、多模态模型(MM)、自动语音识别(ASR)、文本转语音(TTS)和计算机视觉(CV)等领域。它旨在帮助用户高效地创建、定制和部署新一代AI模型,利用现有的代码和预训练模型检查点。NeMo基于Python配置,采用模块化抽象,支持在成千上万个GPU上进行大规模实验。
CVAT 是一款交互式视频和图像标注工具,专为计算机视觉任务设计。它支持多种标注类型、协作标注、自动标注、数据增强和版本控制,广泛应用于训练深度学习模型、自动驾驶汽车数据标注、医疗图像分割和视频监控等领域。CVAT 提供在线版本和自托管解决方案,支持多种标注格式,并与 Roboflow 和 HuggingFace 等平台集成,加速数据标注流程。
LocalAI是一个开源的OpenAI替代品,支持多种模型架构,包括文本生成、图像生成、音频生成和语音克隆等功能。它提供了一个与OpenAI API兼容的REST API,可以在本地或私有云上运行,无需昂贵的GPU。LocalAI旨在提供低成本、高效的AI推理解决方案,适用于需要在本地环境中执行AI任务的开发者。它支持多种模型架构,如llama.cpp、transformers、diffusers等,并具有分布式和P2P推理功能,能够在消费者级硬件上运行。
HeyGem是一款完全离线的视频合成工具,专为Windows系统设计,能够精确克隆用户的外貌和声音,将用户的形象数字化。用户可以通过文本和语音驱动虚拟形象,生成视频。HeyGem支持音频驱动口型匹配,用户只需提供一秒视频或一张照片,即可在30秒内完成数字人形象与声音的精准克隆,并在60秒内合成4K超高清数字人视频。支持复杂光影、遮挡或侧面角度的场景下保持100%的口型匹配,完美呈现多表情和肢体动作。最低配置要求为NVIDIA 1080Ti显卡,支持Windows和Linux系统一键安装。
这是一个基于PyTorch的实时3D多人姿态估计演示项目。它支持使用OpenVINO后端进行快速的CPU推理,适用于实时应用。项目具有轻量级和高效的特点,能够在视频流中实时检测和估计多人的3D姿态,并提供3D姿态可视化。
AI-Faceless-Video-Generator是一款基于人工智能的无脸视频生成工具,能够根据用户提供的主题自动生成视频脚本、配音和会说话的头像。该工具适用于多种场景,如教学视频、产品介绍、奇幻类/科幻类故事视频等,极大地简化了视频制作流程。通过自动化内容生成、AI语音合成和面部动画技术,用户可以快速创建高质量的视频内容。此外,工具还支持个性化定制,用户可以选择或上传不同的头像,创建独特的虚拟角色,满足个性化需求。
Track-On是一个基于Transformer架构的在线点跟踪模型,专门为实时视频点跟踪而设计。它能够在逐帧处理视频时保持高效性,适用于直播视频等实时应用场景。通过紧凑的记忆模块,Track-On在保证高实时性的同时,优化了内存使用,提升了整体性能。
该项目专注于自监督学习在视频对象分割中的应用,由复旦大学、牛津大学和西弗吉尼亚大学的研究人员共同开发。旨在通过自监督学习技术,结合半监督学习方法,提高视频对象分割的准确性,特别是在标注数据有限的情况下,能够在复杂视频场景中实现高质量的分割。项目开源,并在GitHub上提供,供社区使用和贡献。
ComfyUI Yvann-Nodes是一款专为ComfyUI设计的音频反应节点包,能够创建由AI生成的、随音频变化的动画效果。该工具兼容IPAdapter、ControlNets、AnimateDiff等多种工具,提供灵活的节点配置和实时音频反应功能,适用于各种音频驱动的视觉特效创作。
av-diarization是一个用于创建VoxConverse数据集的音视频说话人识别管道,旨在简化多说话者场景下的说话人识别。它结合了高精度的音视频同步技术和多种语音活动检测模型,适用于多种场景,并提供直观的视觉结果展示说话人信息。
OpenMMD 是一款基于 OpenPose 的应用程序,能够将真人视频转换为可直接用于 3D 模型(如 Miku, Anmicius)的运动文件 (.vmd),从而实现 3D 模型的动画制作。该工具高效且准确,支持多种 3D 模型,广泛应用于动画制作、虚拟现实(VR)和增强现实(AR)项目中的角色动画生成。
基于微软Florence-2模型的电影镜头分类器,专为视频数据处理设计。该项目针对ShotDEAD-v0数据集进行了优化,提供了完整的训练和推理代码,使用户能够轻松上手并进行自定义模型微调。无论是自动化分类电影镜头,还是优化视频数据处理流程,该工具都能提供卓越的性能和精准的分类结果。
Ray2是一款先进的AI模型,旨在从文本和图像输入生成超真实的视频。它能够快速生成连贯的运动和细节丰富的视觉效果,适用于视频制作。
Comradity.io 是一个由AI驱动的平台,专注于自动化创建、调度和发布无脸视频,特别适用于TikTok。它使创作者能够轻松生成视频,专注于创新和吸引人的内容,而无需具备摄像技能。用户可以创建各种类型的视频,进行自定义,并自动发布到社交媒体上,以增加粉丝和互动。
MEMO是一款先进的音频驱动说话视频生成模型,通过记忆机制、情感感知和多模态注意力机制,解决了长期一致性保持、情感表达和音唇表情对齐的问题。生成的视频比Echomimic更自然且更具表现力,支持处理不同图像风格,如肖像、雕塑、数字艺术和动画等。
RAIN是由中国科学技术大学和通义实验室开发的实时动画生成系统,能够在消费级设备上生成无限长视频动画,具有流畅稳定性、准确性和一致性。该系统支持实时转换表情和头部动作,适用于多种动画制作场景。
Paints-UNDO 是一个多功能的AI项目,能够伪造从草稿到成图的完整延时绘画过程,并以视频格式输出。同时,它也能逆向工作,分解图像并展示艺术家可能采取的创作步骤。该项目基于videocrafter2生成视频模型的微调,支持多种风格如二次元、写实风格以及真实照片的伪造和分解。
Ditto Speak 是一款语音克隆与语音生成工具,能够从音频中捕捉语音模式,并生成与原始音频相似的语音。用户只需上传音频样本,输入文本,即可生成与原始语音风格一致的语音内容。
Sparrow 是一种数据高效的视频大语言模型(Video-LLM),通过文本到图像的增强技术来提高视频指令的多样性,显著提升了训练效率。
Vlogger是一个通用的人工智能系统,专门用于生成用户描述的一分钟级视频博客(vlog)。该系统利用大型语言模型(LLM)作为导演,将vlog的长视频生成任务分解为四个关键阶段,从而突破现有视频生成方法的瓶颈,提升生成效率和质量。
DeeVid AI 是一款基于人工智能的视频生成工具,能够从文本、图像或视频提示中快速生成高质量的视频。它提供了先进的工具,帮助用户将内容转化为引人入胜的视频,无需任何技术技能。