Yolov7 Flask是一个美观的Flask Web API,支持Yolov7及自定义模型的推理,用户可以方便地上传图片并进行实时物体检测,适用于本地和云环境的部署。
RT-DETR(Real-time DEtection Transformer)是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型,旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法,支持灵活的速度调整和多尺度特征处理,在COCO数据集上表现出色。
DE-DETRs旨在实现数据高效的目标检测,采用Transformer架构,适用于需要减少数据使用的场景。
Pipeless 是一个开源计算机视觉框架,用于创建和部署应用程序,无需构建和维护多媒体管道的复杂性。它提供了创建和部署高效计算机视觉应用程序所需的一切,这些应用程序只需几分钟即可实时运行。
FP-DETR是一个通过全预训练提高目标检测准确性的检测变换器。
OnePose++ 是一种无需CAD模型的关键点自由物体姿态估计方法,能够在复杂环境中快速、准确地估计物体姿态。该项目采用一击式的估计方式,使其在实际应用中具有较高的效率和实用性。
DenseMatcher是一个用于3D语义匹配的工具,能够从单一示例中学习类别级别的操作,实现高效的3D形状匹配。它支持多种3D形状的处理,适用于机器人抓取、增强现实等多个领域。
一套开源的环视物体检测方案,实现了在鸟瞰图视角下的特征优化,可应用于汽车自动驾驶场景。
DALLE-reproduction项目旨在重现OpenAI的DALLE模型,能够根据文本描述生成高质量图像,支持多种文本输入格式,并提供可扩展的模型架构和可调参数,以优化生成效果。该项目实现了多种训练和推理策略,适用于多种应用场景。
《解构大语言模型:从线性回归到通用人工智能》配套代码,提供了大语言模型的实现与分析,展示了线性回归与语言模型之间的关系,并支持多种数据集与训练配置,易于扩展与自定义。
ArcNerf是一个由多种尖端NeRF技术构成的框架,具备新视角渲染和对象提取等实用功能,支持高效模型训练和灵活架构设计。
Rerun 是一个用于记录计算机视觉和机器人数据的 SDK,并配有可视化工具,可以随时间探索这些数据。它允许用户以最小的代码调试和理解系统的内部状态和数据。开发者可以将数据记录到 Rerun SDK,系统会自动进行可视化处理。Rerun 支持来自多个进程的实时数据流,并可回放录制的数据。Rerun Viewer 根据记录的数据创建可配置的可视化效果,用户可以随时回溯和前进时间。
Ludwig v0.8是一个开源的低代码框架,旨在帮助开发者轻松构建先进的机器学习模型,特别是优化用于使用私有数据构建定制的大型语言模型(LLM)。它提供了一种声明式接口,使得模型的构建过程更加高效和简便。
Infini-Megrez是全球首个端侧全模态理解模型,能够同时处理图像、音频和文本数据,具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值,支持场景理解、OCR、中英文语音输入及多轮对话等功能,适用于多种复杂场景下的数据理解和分析。
IsItAI.com的API是一个强大的工具,使用先进的人工智能算法检测和分类图像,提供准确高效的图像识别,适用于内容审核、物体识别和视觉搜索等多种应用场景。
该项目旨在通过多LiDAR布置来提高自动驾驶中物体检测的准确性,探索不同LiDAR配置对3D检测性能的影响。
jax-flow是一个基于JAX的流匹配算法库,旨在提供高效的流匹配解决方案,支持多种流匹配任务,并具备灵活的API设计,方便用户进行集成和扩展,适合大规模数据处理。
激活信标可以将LLM的原始激活压缩成更紧凑的形式,从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文,同时保留LLM在短上下文上的原始能力,显著提高了长上下文语言建模和理解任务的表现。