Probable Motion项目通过预测可能的运动模式,提供了一种无监督的多目标分割方法,能够在视频帧中精准地识别并分离出多个对象。该方法在处理复杂场景时表现出色,尤其适用于动态视频数据的分析和理解。
包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例
Apollo是一个专为视频理解设计的一系列大型多模态模型,能处理视频语言任务,包括长视频理解、时间推理和多轮视频对话,具有高效扩展性和优异的性能表现。
ACTION-Net是一个使用多路径激励机制的动作识别框架,致力于在视频数据集中实现高效的动作识别。它采用先进的技术,提供了在不同场景下出色的动作识别性能,适用于实时监控和分析。
Segment Anything是由Meta AI推出的图像分割大模型,专为图像分割任务设计,能够实现快速、准确的图像区域分割,支持任何物体的自动分割。该模型支持零样本转移到其他分割任务,无需标注训练数据,适用于各类图像分割应用。包含10亿的掩码数据集SA-1B,规模比现有分割数据集大400倍,提供开源代码和模型,支持实时视频流处理,具有高效推理能力和灵活的人机交互接口。