AI视频工具 | 第 8 页

Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型，拥有300亿参数，能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE)，显著提高了训练和推理效率。配备双语文本编码器，支持中英文提示输入，并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。

0

双语文本输入多GPU部署开源视频模型文本到视频生成

ComfyUI开源项目 – 强大的扩散模型图形界面

ComfyUI 是一款功能强大的扩散模型图形用户界面 (GUI) 和后端，提供了一种直观的界面，用于设计和执行复杂的工作流。它被广泛认可为稳定扩散建模的领先 GUI，支持图像、视频和音频转换。ComfyUI 通过节点/图/流程图的方式，允许用户无需编写代码即可创建复杂的稳定扩散工作流。它支持多种模型和优化，适用于 Windows、Linux 和 macOS 平台。

0

图像生成扩散模型图形界面稳定扩散工作流视频生成

Depth Anything V2开源项目 – 单目深度估计的强大基础模型

Depth Anything V2 是一种单目深度估计的强大基础模型，显著改善了细节刻画和鲁棒性。它提供更快的推理速度、更少的参数和更高的深度精度，适用于各种单目深度估计应用。项目提供了四种不同规模的预训练模型，支持图像和视频的深度估计，并且可以通过 Transformers 和 Apple Core ML 进行便捷的使用。

0

Apple Core MLTransformers单目深度估计开源项目

MLX-VLM开源项目 – Mac上的视觉语言模型工具

MLX-VLM 是一个专为在 Mac 上进行视觉语言模型（VLM）推理和微调而设计的 Python 包。它利用 MLX 框架，针对苹果芯片进行了优化，支持多种 VLM 模型，如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力，支持图像、视频和文本的组合输入，并提供了 LoRA 和 QLoRA 微调方法。

0

LoRA微调QLoRA微调多模态输入苹果芯片优化

Frigate开源项目 – 本地AI监控NVR

Frigate是一款专为Home Assistant设计的完整本地NVR，集成了AI对象检测功能。它使用OpenCV和TensorFlow在本地为IP摄像头执行实时对象检测，支持低开销运动检测、基于事件的视频录制、7x24小时录制、RTSP重新流式传输、WebRTC和MSE支持。Frigate与Home Assistant紧密集成，适用于家庭安全和监控、实时对象检测和警报、访问控制和识别、行为分析和模式识别等场景。

0

实时对象检测家庭安全开源项目本地AI监控NVR

EasyVolcap开源项目 – 加速神经体积视频研究的PyTorch库

EasyVolcap是一个基于PyTorch的库，专注于加速神经体积视频的研究，特别是在体积视频捕获、重建和渲染领域。它提供了预构建的深度学习模型，支持自定义网络构建，允许研究人员灵活地创建新算法。通过协同优化器、采样器和渲染器的设计，实现了高效的模型训练和渲染。此外，EasyVolcap还提供了预训练模型和数据集，以加速研究过程，并已被广泛应用于神经体积视频算法的研究和开发。

0

PyTorch库体积视频捕获体积视频渲染体积视频重建

LiveKit Agents开源项目 – 构建实时多模态AI应用的开源框架

LiveKit Agents 是一个完全开源的框架，旨在帮助开发者构建能够实时处理语音、视频和文本的多模态AI应用。它提供了一套完整的工具和接口，简化了AI代理的开发流程，集成了语音管道代理、多模态代理、实时媒体传输、任务调度、电话集成和数据交换等功能。开发者可以根据具体应用场景选择合适的模型和服务，并与 LiveKit 的 Telephony Stack 无缝集成，使代理能够拨打或接听电话。

0

任务调度多模态代理实时多模态AI应用实时媒体传输

LiveTalking开源项目 – 实时交互流式数字人技术

LiveTalking 是一个基于 PyTorch 框架的实时交互流式数字人项目，旨在实现音视频同步对话。它整合了 ER-NeRF、MuseTalk 和 Wav2Lip 等先进模型，利用神经辐射场技术，通过音频输入生成逼真的数字人表情和动作。项目支持声音克隆、数字人被打断、全身视频拼接等功能，适用于多种实时交互场景。

0

声音克隆实时交互流式数字人数字人直播虚拟主播

VILA开源项目 – 高效多模态视觉语言模型

VILA 是一个开源视觉语言模型 (VLM) 系列，旨在优化效率和准确性，适用于边缘、数据中心和云计算环境。它采用交错图像-文本预训练方法，支持多图像处理，并具有强大的上下文学习能力，能够快速学习新概念。VILA 在视频理解、多图像推理等任务中表现出色，广泛应用于研究和工业领域。

0

图像描述多图像推理多模态模型视觉语言模型

NVIDIA NeMo开源项目 – 生成式AI框架

NVIDIA NeMo是一个可扩展的云原生生成式AI框架，专为研究人员和PyTorch开发者设计，支持大语言模型（LLM）、多模态模型（MM）、自动语音识别（ASR）、文本转语音（TTS）和计算机视觉（CV）等领域。它旨在帮助用户高效地创建、定制和部署新一代AI模型，利用现有的代码和预训练模型检查点。NeMo基于Python配置，采用模块化抽象，支持在成千上万个GPU上进行大规模实验。

0

多模态模型大规模分布式训练大语言模型文本转语音

CVAT开源项目 – 计算机视觉标注工具

CVAT 是一款交互式视频和图像标注工具，专为计算机视觉任务设计。它支持多种标注类型、协作标注、自动标注、数据增强和版本控制，广泛应用于训练深度学习模型、自动驾驶汽车数据标注、医疗图像分割和视频监控等领域。CVAT 提供在线版本和自托管解决方案，支持多种标注格式，并与 Roboflow 和 HuggingFace 等平台集成，加速数据标注流程。

0

医疗图像分割深度学习模型训练自动驾驶数据标注视频监控分析

LocalAI开源项目 – 开源OpenAI替代品

LocalAI是一个开源的OpenAI替代品，支持多种模型架构，包括文本生成、图像生成、音频生成和语音克隆等功能。它提供了一个与OpenAI API兼容的REST API，可以在本地或私有云上运行，无需昂贵的GPU。LocalAI旨在提供低成本、高效的AI推理解决方案，适用于需要在本地环境中执行AI任务的开发者。它支持多种模型架构，如llama.cpp、transformers、diffusers等，并具有分布式和P2P推理功能，能够在消费者级硬件上运行。

0

P2P推理分布式推理图像生成开源OpenAI替代品

HeyGem开源项目 – 开源商用级数字人克隆工具

HeyGem是一款完全离线的视频合成工具，专为Windows系统设计，能够精确克隆用户的外貌和声音，将用户的形象数字化。用户可以通过文本和语音驱动虚拟形象，生成视频。HeyGem支持音频驱动口型匹配，用户只需提供一秒视频或一张照片，即可在30秒内完成数字人形象与声音的精准克隆，并在60秒内合成4K超高清数字人视频。支持复杂光影、遮挡或侧面角度的场景下保持100%的口型匹配，完美呈现多表情和肢体动作。最低配置要求为NVIDIA 1080Ti显卡，支持Windows和Linux系统一键安装。

0

4K视频生成多语言支持数字人克隆工具离线操作

Real-time 3D Multi-person Pose Estimation Demo开源项目 – 实时多人3D姿态估计

这是一个基于PyTorch的实时3D多人姿态估计演示项目。它支持使用OpenVINO后端进行快速的CPU推理，适用于实时应用。项目具有轻量级和高效的特点，能够在视频流中实时检测和估计多人的3D姿态，并提供3D姿态可视化。

0

OpenVINOPyTorch人体姿态估计多人检测

AI-Faceless-Video-Generator开源项目 – AI自动生成无脸视频

AI-Faceless-Video-Generator是一款基于人工智能的无脸视频生成工具，能够根据用户提供的主题自动生成视频脚本、配音和会说话的头像。该工具适用于多种场景，如教学视频、产品介绍、奇幻类/科幻类故事视频等，极大地简化了视频制作流程。通过自动化内容生成、AI语音合成和面部动画技术，用户可以快速创建高质量的视频内容。此外，工具还支持个性化定制，用户可以选择或上传不同的头像，创建独特的虚拟角色，满足个性化需求。

0

AI视频生成工具AI语音合成无脸视频生成面部动画技术

Track-On开源项目 – 实时视频点跟踪模型

Track-On是一个基于Transformer架构的在线点跟踪模型，专门为实时视频点跟踪而设计。它能够在逐帧处理视频时保持高效性，适用于直播视频等实时应用场景。通过紧凑的记忆模块，Track-On在保证高实时性的同时，优化了内存使用，提升了整体性能。

0

Transformer架构实时视频点跟踪直播视频处理逐帧视频分析

Self-supervised Video Object Segmentation开源项目 – 自监督视频对象分割

该项目专注于自监督学习在视频对象分割中的应用，由复旦大学、牛津大学和西弗吉尼亚大学的研究人员共同开发。旨在通过自监督学习技术，结合半监督学习方法，提高视频对象分割的准确性，特别是在标注数据有限的情况下，能够在复杂视频场景中实现高质量的分割。项目开源，并在GitHub上提供，供社区使用和贡献。

0

半监督学习复杂视频场景开源项目自监督学习

ComfyUI Yvann-Nodes开源项目 – 音频驱动的AI动画生成工具

ComfyUI Yvann-Nodes是一款专为ComfyUI设计的音频反应节点包，能够创建由AI生成的、随音频变化的动画效果。该工具兼容IPAdapter、ControlNets、AnimateDiff等多种工具，提供灵活的节点配置和实时音频反应功能，适用于各种音频驱动的视觉特效创作。

0

AnimateDiffComfyUI Yvann-NodesControlNetsIPAdapter

av-diarization开源项目 – 简化多说话者场景下的说话人识别

av-diarization是一个用于创建VoxConverse数据集的音视频说话人识别管道，旨在简化多说话者场景下的说话人识别。它结合了高精度的音视频同步技术和多种语音活动检测模型，适用于多种场景，并提供直观的视觉结果展示说话人信息。

0

VoxConverse数据集多说话者场景语音活动检测音视频说话人识别

OpenMMD开源项目 – 将真人视频转换为3D动画

OpenMMD 是一款基于 OpenPose 的应用程序，能够将真人视频转换为可直接用于 3D 模型（如 Miku, Anmicius）的运动文件 (.vmd)，从而实现 3D 模型的动画制作。该工具高效且准确，支持多种 3D 模型，广泛应用于动画制作、虚拟现实（VR）和增强现实（AR）项目中的角色动画生成。

0

3D模型动画OpenMMDOpenPose视频转3D动画

Movie Shot Categorizer开源项目 – 高效电影镜头分类工具

基于微软Florence-2模型的电影镜头分类器，专为视频数据处理设计。该项目针对ShotDEAD-v0数据集进行了优化，提供了完整的训练和推理代码，使用户能够轻松上手并进行自定义模型微调。无论是自动化分类电影镜头，还是优化视频数据处理流程，该工具都能提供卓越的性能和精准的分类结果。

0

Florence-2模型微调电影镜头分类工具视频数据处理优化