Prompt Depth Anything 是一个专注于高分辨率深度估计的AI工具,旨在简化4K深度图的生成过程,并提升深度估计的精度和实用性。它通过低成本LiDAR作为提示,引导Depth Anything模型输出准确的度量深度,适用于3D重建和机器人抓取等场景。
DexGraspVLA是一个面向通用灵巧抓取的视觉-语言-动作框架,能够在复杂场景中实现超过90%的抓取成功率,有效解决机器人在真实世界中抓取多样化物体的难题。该框架结合了预训练的视觉语言模型与扩散策略,实现了复杂任务的高效推理,并提供了可视化工具,帮助理解模型内部行为。
OnePose++ 是一种无需CAD模型的关键点自由物体姿态估计方法,能够在复杂环境中快速、准确地估计物体姿态。该项目采用一击式的估计方式,使其在实际应用中具有较高的效率和实用性。
DenseMatcher是一个用于3D语义匹配的工具,能够从单一示例中学习类别级别的操作,实现高效的3D形状匹配。它支持多种3D形状的处理,适用于机器人抓取、增强现实等多个领域。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息
RT-DETR(Real-time DEtection Transformer)是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型,旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法,支持灵活的速度调整和多尺度特征处理,在COCO数据集上表现出色。
3D-VisTA是一个具备3D世界识别能力的语言模型,能够基于3D世界模型回答相关问题,提供深度的理解与交互。
一款能将临时 IP 变成固定 IP 的代理池中间件,支持多协议、动态获取、自动验证,适用于高并发异步处理,轻松应对各种网络环境和高流量需求。
JoyGen是一款音频驱动的3D深度感知会说话的脸视频编辑工具,能够让视频中的人物根据音频自动做出逼真的表情和口型,为视频制作带来全新的体验。
PyTorch是一个开源的深度学习框架,广泛用于计算机视觉和自然语言处理等领域。
一种新型图像生成技术,通过简化预训练扩散变换器的复杂度,实现高效率和高清晰度的图像生成。
VGGSfM是基于运动的视觉几何深层结构,旨在从输入图像中提取2D轨迹,通过图像和轨迹特征重建摄像机,初始化点云并应用捆绑调整层进行重建细化。
shap-e是OpenAI开发的一个开源AI 3D算法,能够根据单张图像生成多个3D模型。它可以在高性能显卡上高效运行,生成的模型支持导出为mesh格式,便于在Blender等软件中进行再编辑,适用于各种形状和物体的建模需求。