Depth Anything 是一个高度实用的单目深度估计解决方案,旨在构建一个简单而强大的基础模型,能够处理任何图像并适应任何场景。该模型使用约6200万张无标签图像进行训练,涵盖多个领域和场景,展示了出色的零样本泛化能力,并在NYUv2和KITTI数据集上创下了新的最佳性能。
DPT(Dense Prediction Transformer)是一个基于视觉Transformer的密集预测模型,主要用于单目深度估计和语义分割任务。该项目由Intel开发,但目前已停止维护。它提供了多种预训练模型,可以用于生成图像的深度图或进行语义分割。项目依赖于PyTorch框架,并提供了详细的代码和模型权重供用户使用。
DepthFM 是一个先进、多功能且快速的单目深度估计模型,能够在单次推理步骤中生成高质量的深度图。该模型展示了从基础图像合成扩散模型(Stable Diffusion v2-1)到流匹配模型的成功迁移,直接从输入图像映射到深度图。DepthFM 不仅在常规深度估计任务中表现出色,还在深度修复和深度条件合成等下游任务中展现了领先的能力。
Depth Anything V2 是一种单目深度估计的强大基础模型,显著改善了细节刻画和鲁棒性。它提供更快的推理速度、更少的参数和更高的深度精度,适用于各种单目深度估计应用。项目提供了四种不同规模的预训练模型,支持图像和视频的深度估计,并且可以通过 Transformers 和 Apple Core ML 进行便捷的使用。
MMSegmentation 是 OpenMMLab 项目的一部分,旨在为研究人员和开发者提供一个灵活、高效且标准化的平台,用于重新实现现有方法并开发新的语义分割算法。它支持多种流行的语义分割框架,如 PSPNet、DeepLabV3、PSANet、DeepLabV3+ 等,并且具有模块化设计,允许用户通过组合不同模块来构建自定义的语义分割框架。
Depth Pro 是一个基础模型,用于零样本度量单目深度估计,能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据,利用高效的多尺度视觉变换器,提供高分辨率和准确的深度测量,适用于各种视觉任务。
GrUMoDepth 是一种通过梯度方法进行的不确定性估计,专注于单目深度估计,旨在提高深度估计的准确性和可靠性。
DoubleTake 是一个几何引导的深度估计项目,旨在高效处理稀疏视图,以提升计算机视觉任务中的深度估计精度。
"Luma AI" 是一个先进的AI工具,旨在让更多人能够轻松创建高质量的3D内容和逼真效果。它使用户,无论技术水平如何,都能生成生动的3D捕捉并将逼真效果应用于数字项目。
包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息
GRAM是一个用于3D感知图像生成的生成辐射流形模型,能够从2D输入生成高质量的3D图像,利用先进的生成辐射流形技术,提供了真实感和高保真的图像合成效果。
RIO是一个基于优化和点不确定性感知的4D雷达系统雷达-惯性里程计,旨在实现高精度的定位和导航。它通过结合雷达数据和惯性传感器信息,提供可靠的定位解决方案,适用于多种环境和应用场景。
ZoeDepth是一个利用深度学习技术从2D图像生成3D模型的工具,经过12个数据集的训练,专注于深度估计和3D模型生成。
Autopia使用人工智能处理您的敏捷工作流,这样您就可以花更多时间建立项目。仅需5分钟。使用自然语言自动化所有工作流程规划、项目管理和进度报告。减少JIRA成本。
Salient Extract是一个基于yoloV8深度学习模型的显著目标提取工具,能够高效提取图像中的显著特征,支持多种输入图像格式,并能与其他计算机视觉任务结合使用。