MegDetv2 - COCO 20192020目标检测、实例分割冠军方案

科技2025-11-25 15

https://arxiv.org/pdf/2010.02475.pdf

Abstract:

在此报告中，我们介绍了目标检测/实例分割系统MegDetV2，该系统以two-pass方式工作，首先检测实例，然后进行分割。我们的基线检测器主要基于一种新设计的RPN，称为RPN ++。在COCO-2019检测/实例细分test-dev数据集上，我们的系统达到61.0 / 53.1 mAP，比我们2018年的获胜结果分别高出5.0 / 4.2。我们在2019年和2020年COCO挑战赛中取得了最佳成绩。

Two-Pass Pipeline：

训练的时候，分别训练FPN检测器和Mask-RCNN 。测试的时候，将从FPN检测器提取的边界框输入到Mask-RCNN的分割head中，以生成最终结果。以这种分而治之的方式，很容易利用来自不同来源的训练数据并管理非常大规模的模型训练。

Detection：

1.Methods:

本文使用FPN、MASK RCNN、Cascade RCNN，使用resnet50作为基准特征提取器。其中使用了上表中的tricks。

A. RPN++

其中包含了High-IoU proposal sampling和Class aware sampling两种采样方式。

High-IoU proposal sampling: RPN中已经存在许多高质量的proposals，通过NMS对其进行过滤。而不是使用RPN分数来确定proposals的好坏。这样无法有效利用它们，本文提出使用proposal与gt的iou作为质量标准放宽了NMS IoU阈值，以保留更多高质量的proposals。得益于高IoU采样器，甚至可以直接学习具有更高的IoU临界阈值0.7的R-CNN，它可以将FPN显着提高2.5（表2中的38.8对36.3）。这种方式对于级联R-CNN也是有帮助的，通过添加额外的R-CNN头和0.7 IoU阈值，这将结果进一步提高到40.7。注意，与普通级联R-CNN相比，它具有更出色的性能（表2中的40.7 vs 40.2），甚至减少了计算量。

Class aware sampling：

以往对于RPN生成的proposals，对于不同类别使用相同的iou阈值。本文对应不同类别动态设定阈值。具体做法是：首先计算所有类别中有多少个proposals与gt框的iou高于0.5 的比率α。然后根据α，对每个类别进行proposals的采样。本文还为RPN anchors设计了另一个目标匹配规则。每个gt框将被迫匹配一组anchor boxes，例如每个gt框的前35个anchors点。这些更改使FPN改善了1.3（表3中）

B. Strong-Baseline for Object Detection

在上面tricks的基础上，本文还采用 “Deformable Network v2 with pooling” [14], “Stacking 4 Convolutions for location branch”.的技术。

Deformable Convolution and Pooling：在Deformable ConvNets v2之后，作者在ResNet阶段-{3，4，5}中的每个瓶颈3×3卷积中添加了transformable-conv。产生2.6（38.9 vs 36.3）的改进。像可变形ConvNets一样，进一步用可变形RoI-Align代替RoI Align操作。结果提高了1.1（40.0 vs 38.9）。

Stacking 4 Convolutions for location branch：对于回归分支而言，使用4个堆叠卷积来更好地利用空间信息进行定位任务而。它有效地将结果提高了0.7（40.8对40.1）点。

Feature Pyramid with deformable convolution：将FPN中的横向3×3卷积更改为可变形的3×3卷积。通过简单的修改，这可以带来0.3（41.1 vs 40.8）的改进。

2.COCO 2019 Detection Road-Map:

最后，为了获得更好的COCO挑战结果，我们采用了另外3个强大的主干来提取图像特征。包含SENet-154 ，Shuffle V2 和ResNext 。

1.ShuffleNet V2 ->5.2。注意，为加快实验速度，作者在训练较大的骨干网时使用64个GPU（2个图像/ gpu）

2.SoftNMS ->0.7

3.syncbn->0.9

4.multi-scale training->0.9，具体地，通过从400到1400范围内的均匀采样来确定图像的短尺寸，最大大小限制为1400

5.Objects365预训练->2.3

6.大尺度训练->0.9，较大的尺寸范围600-1600，较长边缘的最大尺寸限制为1867

7.进一步延长了多尺度训练的时间，涉及更大的RoI作为上下文，并对R-CNN的分类评分进行了归一化->1

8.TTA:->1.6，多尺度测试{600, 800, 1000, 1200, 1400}+水平翻转

9.ensemble

Processed: 0.020, SQL: 9