实时物体检测

Yolov7 Flask开源项目 – 基于Flask的Yolov7模型API

Yolov7 Flask开源项目 – 基于Flask的Yolov7模型API

Yolov7 Flask是一个美观的Flask Web API，支持Yolov7及自定义模型的推理，用户可以方便地上传图片并进行实时物体检测，适用于本地和云环境的部署。

Docker容器部署Flask Web APIYolov7模型API图像上传

RT-DETR开源项目 – 实时物体检测的高效解决方案

RT-DETR（Real-time DEtection Transformer）是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型，旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法，支持灵活的速度调整和多尺度特征处理，在COCO数据集上表现出色。

RT-DETRYOLO系列实时物体检测计算机视觉

DE-DETRs开源项目 – 数据高效的目标检测

DE-DETRs开源项目 – 数据高效的目标检测

DE-DETRs旨在实现数据高效的目标检测，采用Transformer架构，适用于需要减少数据使用的场景。

Transformer架构数据高效目标检测计算资源优化

Pipeless开源项目 – 简化计算机视觉应用的框架

Pipeless开源项目 – 简化计算机视觉应用的框架

Pipeless 是一个开源计算机视觉框架，用于创建和部署应用程序，无需构建和维护多媒体管道的复杂性。它提供了创建和部署高效计算机视觉应用程序所需的一切，这些应用程序只需几分钟即可实时运行。

实时图像处理开源计算机视觉框架快速部署计算机视觉应用物联网视觉应用

FP-DETR开源项目 – 全预训练检测变换器

FP-DETR开源项目 – 全预训练检测变换器

FP-DETR是一个通过全预训练提高目标检测准确性的检测变换器。

FP-DETR全预训练目标检测目标检测准确性提升

OnePose++开源项目 – 无CAD模型的一击式物体姿态估计

OnePose++开源项目 – 无CAD模型的一击式物体姿态估计

OnePose++ 是一种无需CAD模型的关键点自由物体姿态估计方法，能够在复杂环境中快速、准确地估计物体姿态。该项目采用一击式的估计方式，使其在实际应用中具有较高的效率和实用性。

一击式估计增强现实无CAD模型物体姿态估计机器人抓取

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

3D形状匹配DenseMatcher-3D语义匹配工具增强现实机器人抓取

BEVFormer开源项目 – 开源的环视物体检测方案

BEVFormer开源项目 – 开源的环视物体检测方案

一套开源的环视物体检测方案，实现了在鸟瞰图视角下的特征优化，可应用于汽车自动驾驶场景。

开源物体检测方案无人驾驶汽车感知模块汽车自动驾驶环境感知

DALLE-reproduction开源项目 – 再现OpenAI的DALLE模型

DALLE-reproduction开源项目 – 再现OpenAI的DALLE模型

DALLE-reproduction项目旨在重现OpenAI的DALLE模型，能够根据文本描述生成高质量图像，支持多种文本输入格式，并提供可扩展的模型架构和可调参数，以优化生成效果。该项目实现了多种训练和推理策略，适用于多种应用场景。

DALLE模型再现可扩展模型架构图像生成文本到图像

regression2chatgpt开源项目 – 大语言模型与线性回归的结合

regression2chatgpt开源项目 – 大语言模型与线性回归的结合

《解构大语言模型：从线性回归到通用人工智能》配套代码，提供了大语言模型的实现与分析，展示了线性回归与语言模型之间的关系，并支持多种数据集与训练配置，易于扩展与自定义。

大语言模型实现数据集训练模型比较实验线性回归分析

ArcNerf开源项目 – 基于NeRF的先进渲染与提取框架

ArcNerf开源项目 – 基于NeRF的先进渲染与提取框架

ArcNerf是一个由多种尖端NeRF技术构成的框架，具备新视角渲染和对象提取等实用功能，支持高效模型训练和灵活架构设计。

3D对象重建增强现实对象提取新视角渲染

Rerun官网 – 计算机视觉和机器人数据的日志与可视化工具

Rerun 是一个用于记录计算机视觉和机器人数据的 SDK，并配有可视化工具，可以随时间探索这些数据。它允许用户以最小的代码调试和理解系统的内部状态和数据。开发者可以将数据记录到 Rerun SDK，系统会自动进行可视化处理。Rerun 支持来自多个进程的实时数据流，并可回放录制的数据。Rerun Viewer 根据记录的数据创建可配置的可视化效果，用户可以随时回溯和前进时间。

实时数据流监控机器人数据可视化算法调试与分析计算机视觉数据记录工具

Ludwig v0.8官网 – 简化构建机器学习模型的框架

Ludwig v0.8是一个开源的低代码框架，旨在帮助开发者轻松构建先进的机器学习模型，特别是优化用于使用私有数据构建定制的大型语言模型（LLM）。它提供了一种声明式接口，使得模型的构建过程更加高效和简便。

低代码机器学习框架定制大型语言模型开源机器学习工具

Infini-Megrez开源项目 – 端侧全模态理解模型

Infini-Megrez开源项目 – 端侧全模态理解模型

Infini-Megrez是全球首个端侧全模态理解模型，能够同时处理图像、音频和文本数据，具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值，支持场景理解、OCR、中英文语音输入及多轮对话等功能，适用于多种复杂场景下的数据理解和分析。

图像识别文本理解端侧全模态理解模型音频信号分析

IsItAI.com – Chrome Extension-AI图像检测和分类工具

IsItAI.com的API是一个强大的工具，使用先进的人工智能算法检测和分类图像，提供准确高效的图像识别，适用于内容审核、物体识别和视觉搜索等多种应用场景。

AI图像检测工具内容审核图像分类物体识别

Multi-LiDAR Placement for 3D Detection开源项目 – 研究多LiDAR布置对物体检测的影响

Multi-LiDAR Placement for 3D Detection开源项目 – 研究多LiDAR布置对物体检测的影响

该项目旨在通过多LiDAR布置来提高自动驾驶中物体检测的准确性，探索不同LiDAR配置对3D检测性能的影响。

3D物体检测多LiDAR配置自动驾驶

jax-flow开源项目 – 基于JAX的流匹配算法

jax-flow开源项目 – 基于JAX的流匹配算法

jax-flow是一个基于JAX的流匹配算法库，旨在提供高效的流匹配解决方案，支持多种流匹配任务，并具备灵活的API设计，方便用户进行集成和扩展，适合大规模数据处理。

JAX流匹配算法库数据处理深度学习实验高效流匹配解决方案

激活信标-压缩激活以扩展上下文感知

激活信标可以将LLM的原始激活压缩成更紧凑的形式，从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文，同时保留LLM在短上下文上的原始能力，显著提高了长上下文语言建模和理解任务的表现。

LLM性能提升激活信标语言建模长上下文处理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3