av-diarization是一个用于创建VoxConverse数据集的音视频说话人识别管道,旨在简化多说话者场景下的说话人识别。它结合了高精度的音视频同步技术和多种语音活动检测模型,适用于多种场景,并提供直观的视觉结果展示说话人信息。