GeneralistYOLO是一个实时多任务视觉语言模型,能够一站式解决多种视觉任务。该模型在MS COCO数据集上表现出色,目标检测AP达到52.4%,实例分割AP达到43.0%。此外,该模型具有高效的实时性能,在640尺寸下FLOPs仅为122.2G。