DenseMatcher是一个用于3D语义匹配的工具,能够从单一示例中学习类别级别的操作,实现高效的3D形状匹配。它支持多种3D形状的处理,适用于机器人抓取、增强现实等多个领域。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息
RT-DETR(Real-time DEtection Transformer)是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型,旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法,支持灵活的速度调整和多尺度特征处理,在COCO数据集上表现出色。
3D-VisTA是一个具备3D世界识别能力的语言模型,能够基于3D世界模型回答相关问题,提供深度的理解与交互。
一款能将临时 IP 变成固定 IP 的代理池中间件,支持多协议、动态获取、自动验证,适用于高并发异步处理,轻松应对各种网络环境和高流量需求。
JoyGen是一款音频驱动的3D深度感知会说话的脸视频编辑工具,能够让视频中的人物根据音频自动做出逼真的表情和口型,为视频制作带来全新的体验。
PyTorch是一个开源的深度学习框架,广泛用于计算机视觉和自然语言处理等领域。
一种新型图像生成技术,通过简化预训练扩散变换器的复杂度,实现高效率和高清晰度的图像生成。
VGGSfM是基于运动的视觉几何深层结构,旨在从输入图像中提取2D轨迹,通过图像和轨迹特征重建摄像机,初始化点云并应用捆绑调整层进行重建细化。
shap-e是OpenAI开发的一个开源AI 3D算法,能够根据单张图像生成多个3D模型。它可以在高性能显卡上高效运行,生成的模型支持导出为mesh格式,便于在Blender等软件中进行再编辑,适用于各种形状和物体的建模需求。