MegDetv2 - COCO 20192020目标检测、实例分割冠军方案

    科技2025-11-25  15

    https://arxiv.org/pdf/2010.02475.pdf

    Abstract:

    在此报告中,我们介绍了目标检测/实例分割系统MegDetV2,该系统以two-pass方式工作,首先检测实例,然后进行分割。 我们的基线检测器主要基于一种新设计的RPN,称为RPN ++。 在COCO-2019检测/实例细分test-dev数据集上,我们的系统达到61.0 / 53.1 mAP,比我们2018年的获胜结果分别高出5.0 / 4.2。 我们在2019年和2020年COCO挑战赛中取得了最佳成绩。

    Two-Pass Pipeline:

    训练的时候,分别训练FPN检测器和Mask-RCNN 。测试的时候,将从FPN检测器提取的边界框输入到Mask-RCNN的分割head中,以生成最终结果。 以这种分而治之的方式,很容易利用来自不同来源的训练数据并管理非常大规模的模型训练。

    Detection:

    1.Methods:

    本文使用FPN、MASK RCNN、Cascade RCNN,使用resnet50作为基准特征提取器。其中使用了上表中的tricks。

    A. RPN++

    其中包含了High-IoU proposal sampling和Class aware sampling两种采样方式。

    High-IoU proposal sampling: RPN中已经存在许多高质量的proposals,通过NMS对其进行过滤。 而不是使用RPN分数来确定proposals的好坏。这样无法有效利用它们,本文提出使用proposal与gt的iou作为质量标准 放宽了NMS IoU阈值,以保留更多高质量的proposals。 得益于高IoU采样器,甚至可以直接学习具有更高的IoU临界阈值0.7的R-CNN,它可以将FPN显着提高2.5(表2中的38.8对36.3)。 这种方式对于级联R-CNN也是有帮助的,通过添加额外的R-CNN头和0.7 IoU阈值,这将结果进一步提高到40.7。 注意,与普通级联R-CNN相比,它具有更出色的性能(表2中的40.7 vs 40.2),甚至减少了计算量。

    Class aware sampling:

    以往对于RPN生成的proposals,对于不同类别使用相同的iou阈值。本文对应不同类别动态设定阈值。具体做法是:首先计算所有类别中有多少个proposals与gt框的iou高于0.5 的比率α。然后根据α,对每个类别进行proposals的采样。本文还为RPN anchors设计了另一个目标匹配规则。 每个gt框将被迫匹配一组anchor boxes,例如 每个gt框的前35个anchors点。 这些更改使FPN改善了1.3(表3中)

    B. Strong-Baseline for Object Detection

    在上面tricks的基础上,本文还采用 “Deformable Network v2 with pooling” [14], “Stacking 4 Convolutions for location branch”.的技术。

    Deformable Convolution and Pooling: 在Deformable ConvNets v2之后,作者在ResNet阶段-{3,4,5}中的每个瓶颈3×3卷积中添加了transformable-conv。 产生2.6(38.9 vs 36.3)的改进。 像可变形ConvNets一样,进一步用可变形RoI-Align代替RoI Align操作。 结果提高了1.1(40.0 vs 38.9)。

    Stacking 4 Convolutions for location branch: 对于回归分支而言,使用4个堆叠卷积来更好地利用空间信息进行定位任务而。 它有效地将结果提高了0.7(40.8对40.1)点。

    Feature Pyramid with deformable convolution: 将FPN中的横向3×3卷积更改为可变形的3×3卷积。 通过简单的修改,这可以带来0.3(41.1 vs 40.8)的改进。

    2.COCO 2019 Detection Road-Map:

    最后,为了获得更好的COCO挑战结果,我们采用了另外3个强大的主干来提取图像特征。 包含SENet-154 ,Shuffle V2 和ResNext 。

    1.ShuffleNet V2 ->5.2。 注意,为加快实验速度,作者在训练较大的骨干网时使用64个GPU(2个图像/ gpu)

    2.SoftNMS ->0.7

    3.syncbn->0.9

    4.multi-scale training->0.9,具体地,通过从400到1400范围内的均匀采样来确定图像的短尺寸,最大大小限制为1400

    5.Objects365预训练->2.3

    6.大尺度训练->0.9,较大的尺寸范围600-1600,较长边缘的最大尺寸限制为1867

    7.进一步延长了多尺度训练的时间,涉及更大的RoI作为上下文,并对R-CNN的分类评分进行了归一化->1

    8.TTA:->1.6,多尺度测试{600, 800, 1000, 1200, 1400}+水平翻转

    9.ensemble

    Processed: 0.020, SQL: 9