Online Visual Tracking with One-Shot Context-Aware Domain Adaptation阅读翻译

科技2022-07-13 184

Abstract

在线学习策略使视觉跟踪器可以通过学习特定领域的线索来更强大地抵抗各种失真。但是，跟踪器采用此策略无法充分利用背景区域的区分上下文。此外，由于每个时间步长都缺乏足够的数据，因此在线学习方法还可能使跟踪器易于过度拟合背景区域。在本文中，我们提出了一种域自适应方法来增强语义背景上下文的贡献。领域适应方法仅由现成的深度模型来支撑。所提出的方法的优势在于其具有判别能力，可以应对严重的咬合和背景杂乱的挑战。我们进一步引入了一种成本敏感型损失，以减轻非语义背景对语义候选者的支配性，从而解决了数据不平衡的问题。实验结果表明，与最新的跟踪器相比，我们的跟踪器能够以实时速度获得竞争性结果。

1 引言

视觉对象跟踪旨在在指定初始边界框之后在图像序列上定位目标边界框。由于深度卷积神经网络（CNN）的强大区分性表示，基于CNN的跟踪器已经取得了令人瞩目的进步。但是，由于目标会随着时间的流逝出现各种无法预测的外观变化，因此，以实时速度实现高精度跟踪仍然是一个悬而未决的问题。在线学习策略已被证明是一种有效的方法，可以使视觉跟踪器在跟踪过程中更强大地抵抗各种失真[1、2、3]。但是，过多的在线更新策略可能会使跟踪器容易过度适应非目标环境，从而导致跟踪漂移。此外，天真地将先前的补丁功能集成到长期和短期功能模板中会丢弃背景区域的区分性上下文。为了缓解这些问题，在本文中，我们通过交叉熵损失函数利用正负候选对象的梯度来捕获上下文感知的CNN过滤器，以进行在线更新。借助选定的卷积过滤器，我们的跟踪器可以在每个时间步中准确地将语义背景候选对象（也称为干扰因子）与肯定的候选对象区分开。另外，以这种有效的观点减少参数的数量可以帮助减轻更新阶段的过度拟合问题。与传统上已通过大规模对象跟踪数据集进行预训练的其他跟踪器[4、5、6、7]相比，我们仅利用现成的CNN模型作为特征提取，而无需进行离线预训练程序。由于从现成的CNN模型中选择了上下文感知的CNN过滤器，因此与最先进的视觉跟踪器相比，我们的跟踪器具有竞争性的结果（如图1所示）。尽管事实上为对象分类任务预先训练的现成CNN模型是不可知的对于类内差异，建议的选择方法可以提取有助于类内差异的上下文感知CNN过滤器。结果，现成的CNN模型的域适用于具有不同域的对象跟踪任务。此外，由于现成的模型不需要预训练阶段，因此采用我们提出的策略，享受与手工设计的深层网络架构有关的进步可能更可行尽管上述在线学习策略已将识别感兴趣的对象与前景的对象区分开来，但在我们的实时跟踪器中并没有彻底解决向拖拉机的漂移问题。这主要源于数据不平衡问题，这是视觉跟踪器中根深蒂固的问题之一[8、9、10、11]。数据不平衡问题使许多跟踪器的通用性差。在视觉对象跟踪中，数据不平衡问题存在两个方面。首先，与消极候选者相比，积极的候选者构成了相当大比例的训练数据，这对CNN模型的性能产生了不利的影响。其次，非语义背景候选(即容易否定的候选)对干扰项的支配使得训练后的网络偏向于容易的非语义背景候选，从而降低了网络的性能。受最近目标检测和跟踪的进展[12，13]的启发，提出了一个代价敏感的损失函数来平衡非语义背景候选和正/负候选在更新策略中的贡献。也就是说，提出的损失函数设法惩罚了容易的非语义背景候选，同时加强了干扰的影响，包括消极和积极的干扰。值得注意的是，所提出的过滤器选择策略还有助于处理数据不平衡问题的第二方面，因为它提取了有利于区分干扰项和感兴趣对象的上下文感知过滤器。 12 Focal loss for dense object detection, IEEE Transactions on Pattern Analysis and Machine Intelligence 13 Deep regression tracking with shrinkage loss, in: Proceedings of the European Conference on Computer Vision

我们的主要贡献总结如下：

·在视觉跟踪器中，我们提出了一种基于上下文感知的域自适应在线学习策略，使得在不同域中预先训练的卷积滤波器可以被提取出来用于视觉跟踪，同时考虑到不同负候选的上下文。为此，仅使用第一帧的基本事实。

针对在线学习过程中存在的数据不均衡问题，提出了代价敏感的损失函数来改善视觉跟踪器的脆弱性。

·我们在OTB-2015[14]、OTB50[14]、OTB-2013[15]、UAV-123[16]数据集上进行了广泛的实验评估，与最先进的实时跟踪器相比，我们的跟踪器采用的在线学习策略可以在没有任何预训练阶段的情况下获得具有竞争力的性能。

第二部分对基于深度学习和在线学习策略的对象跟踪器的研究现状进行了综述。第3节详细描述了我们为在线学习策略提出的方法和成本敏感的损失函数，第4节描述了基线跟踪算法。第5节对不同的数据集进行了广泛的评估，以评估我们跟踪器中提议的组件的贡献，第6节通过一些有洞察力的观点结束了我们的工作。

2 相关工作

在这一部分中，详细讨论了基于深度学习的视觉跟踪器和基于在线学习策略的跟踪器。

2.1.深度跟踪器

近年来，由于深度学习的突破，视觉目标跟踪与计算机视觉的其他领域一样取得了许多进展。一般来说，基于深度学习的跟踪器分为一个阶段17，18，19，20和两个阶段(基于分类)[21，22，23，11]组。一阶段跟踪器利用预先训练的CNN模型，随着时间的推移定位与预定义模板最相似的感兴趣区域。最近，暹罗网络在一级跟踪器领域备受关注。基于暹罗的跟踪器[8，24，25，26，27]被描述为一个互相关问题，它训练两个分支的CNN来同时编码搜索区域和目标补丁。在推理阶段，一些基于暹罗的跟踪器[2，9，28，29]更新它们的模型以增强它们的鲁棒性。其他的[17，30，31]基于单次学习，为了以更低的精度代价获得更高的效率，完全放弃了更新阶段。 SiamFC[19]作为基于暹罗的跟踪器的开创性工作，预先训练了一个完全卷积的暹罗网络，以计算用于目标跟踪的单通道响应图，而不需要任何更新阶段。类似地，[18]和[17]预先训练具有不同结构的暹罗网络用于在线跟踪。在SiamFC[32]之后，CFnet在SiamFC模型中加入了一个相关过滤层，并通过应用5个平均模板来更新其模型。 SiamRPN[30]将区域建议网络[33]集成到暹罗网络中，由此可以在离线阶段联合训练分类和回归分支。 DaSiamRPN[9]试图解决SiamRPN中的数据不平衡问题，增强其适应性，并将SiamRPN扩展到局部到全局搜索区域策略的长期跟踪。作者在[24]中增强了SiamRPN跟踪器，以使用更深层次的网络(如ResNet-50的修改版本[34])来享受更抽象的表示。此外，在它们的网络中，上行信道互相关层被深度互相关层所取代，从而降低了计算量，获得了更好的性能。

与单级分类器相比，两级跟踪器通过预先训练的相关滤波器或基于CNN的分类器将目标从背景区域中区分出来。在第一阶段，围绕目标的先前位置抽出几个候选人。然后在第二阶段通过训练好的CNN模型对这些候选者进行评估和分类。在两级跟踪器中，与其他跟踪器相比，MDNet[11]在2016年获得了巨大的性能提升。 MDNet将在线精炼网络集成到跟踪过程中，使跟踪器在处理不同挑战(包括外观变化、背景杂乱和遮挡)时更加灵活。基于它的方法，到目前为止已经进行了许多研究[10，22，23，35，36，37，38]。虽然MDNet已经取得了一流的性能，但仍有几个缺点需要解决。第一个问题与其高计算复杂度有关。 MDNet通过离线的预先训练的网络独立地评估候选者，并随着时间的推移使用特定于序列的信息来改进该网络。在线求精计算量大，极大地降低了跟踪速度，阻碍了其实时应用。已经进行了一些研究来缓解这一缺陷。在文献[10]中，作者提出了最先进的实时MDNet，称为RT-MDNet，以利用vv3层之后的自适应ROI对齐(RoIign)来加速MDNet，以便为所有采样的候选输出固定大小的共享特征地图。 Chen等人。 [21]将跟踪问题描述为行动者-批评者框架，其中基于强化学习对行动者模型进行预训练，以预测跟踪过程中每个时间步的一个动作。这样的预测由Critic模型在在线和离线阶段进行评估。 MetaRTT[39]试图使用带有元学习的一次性网络修剪来加速在线时尚中的模型适应。

2.2. Deep Trackers with Online Learning

在线更新阶段使视觉跟踪器在处理对象外观变化、光照变化、背景杂乱和其他具有挑战性的不确定性方面具有更强的适应性。为此，到目前为止已经采用了各种方法，包括增量子空间[40，41]、模板集成[9，29，42，43，2]、基于梯度的更新[29，44，45]、在线分类器更新[10，11，1，22]和元学习优化[35，28，46，39]。模板集成类中的跟踪器大多采用固定更新策略和线性插值策略。考虑到这种天真策略的局限性，[2]训练一个双层CNN学习如何随着时间的推移非线性地更新其模板。基于梯度的更新类别在跟踪过程中使用梯度信息更新其模型。 Li等人。 [47]通过使用回归和排序损失函数捕获的梯度，了解暹罗网络的目标感知深度特征。 GradNet[29]使用前馈和反向操作中的梯度的辨别信息来更新其用于暹罗网络的模板。关于在线分类器更新，跟踪器使用围绕感兴趣对象的采样候选以在线模式训练强大的分类器。 Atom[1]使用基于共轭梯度和高斯-牛顿的优化策略，训练一个7~2层的完全CNN来输出目标的2D位置。与ATOM相比，具有多域预训练阶段的跟踪器(如[10，11])在在线模式下在每个时间步长更新其模型，利用交叉熵损失函数对前景实例和背景实例进行分类。尽管获得了高精度的性能，但他们通过复杂的多域学习预先训练了他们的模型，从而由于可用的大规模数据集而享受到了广泛的学习信息(注意，在我们的论文中，我们只寻求利用第一帧而没有预训练阶段来获得同样的竞争性能)。最后一类是基于元学习的方法，通常预先训练元学习者优化器以加快收敛时间[39，28，35]。尽管在线更新策略可以使跟踪器在处理背景和实例级别的各种变化时更加健壮，但它也会导致漂移问题。更具体地说，不准确的跟踪预测可能只会在更新阶段引入不利的噪声，导致漂移问题。此外，由于跟踪过程中在线训练样本有限，针对过拟合问题，更新策略会加剧跟踪器的脆弱性。简而言之，对于视觉跟踪问题来说，它可以是一把双刃剑。在本文中，我们发起了一项研究，以探索我们可以在多大程度上利用在线学习策略(在在线分类器更新类别中)，而不经历上述挑战。我们的在线更新策略利用计算的阴性候选的梯度来处理在线学习过程中的过拟合问题，并强调更具区分性的背景候选。

3. The Proposed Tracker

在这一部分中，首先介绍了我们模型的体系结构。然后，我们解释了一个现成的CNN如何在没有任何预训练阶段的情况下很好地适应我们的视觉跟踪器。最后，为了缓解在线学习策略中的数据不平衡问题，还引入了代价敏感的损失函数图2：建议的具有域适配的网络体系结构。 (A)网络架构。 (B)领域适应机制。

3.1. Network Architecture

如图2(A)所示，我们的网络是一个完全卷积神经网络网络，其特征提取器由VGG-M[48]支持。更具体地说，特征提取器由三个卷积层(即，Conv-1到Conv-3)、一个最大池层和一个自适应RoIAlign层组成。所有卷积层之后是REU和局部响应归一化(LRN)。消除了VGG-M网络中9秒的最大池层，并将Conv-3的扩张率设置为3。在Conv-3之后采用自适应RoIAlign层来计算跟踪过程中采样的每个ROI的特征，与RT-MDNet[10]相同。对于在线学习，我们没有采用RT-MDNet的域无关子网络**，因为三个具有大量参数的全连通(FC)层会使我们的跟踪器容易对非语义背景区域过度拟合。** 我们用两个堆叠的3×1和1×3卷积层(称为Conv-4和Conv-5)替换全连接(FC)层，如图2(A)所示。最终，为了将信道数减少到类数，还对网络应用了1×1卷积层(Conv-6)。

3.2One-Shot Domain Adaptation

GradNet[29]证明了干扰像素的梯度绝对值高于非语义背景区域。受GradNet和相关研究[49，47]的启发，我们训练了一个单层的3×3卷积层，命名为Conv-DA(图2(B))，在第一帧中使用交叉熵损失函数来强调信道选择的语义背景候选。所选择的频道保留了有利于在线学习策略的更具区别性的背景信息。此外，这样的渠道可以改善在线学习的脆弱性，而不是过度适应最近的非语义背景领域。为此，在视频序列的第一帧中，对不同的候选对象进行采样并馈送到网络，如图2(A)所示。一旦在第一帧中用自适应RoIAlign计算了所有采样候选的特征，就用交叉熵损失函数训练Conv-DA。然后，根据图2(B)计算关于特征地图激活的背景类分数的梯度。最后，在[49]的基础上，我们可以选择合适的通道来捕获上下文感知的featrue真值空间，通过在宽度和高度维度上使用10个全局平均池来进行域自适应(从分类到跟踪)。背景类中分数梯度的全局平均汇集操作计算如下：其中，δnk表示第n个信道的重要性，L表示交叉熵损失函数，N表示Ck中的特征元素的数量，Ck表示馈送到第一帧中的后一卷积层的第n个信道的特征。图1说明了在没有预培训阶段的情况下，RT-MDNet跟踪器中的在线学习性能。如图1所示，由于需要由有限的样本候选来调整大量的参数，RT-MDNet在没有预训练阶段的情况下无法跟踪感兴趣的对象，并且过度拟合到不利的区域。失败大多发生在与目标区域相比具有较少区分度的背景区域时。然而，域自适应策略可以通过捕获上下文感知的CNN过滤器来处理这样一项棘手的任务，以便为区分背景区域和目标而定制类间和类内差异。

3.3. Cost-Sensitive Loss

两阶段跟踪器剩下的一个主要缺点是它们不能处理数据不平衡问题。为了解决这一问题，本文重新定义了交叉熵损失(CE)来消除在线学习过程中的班级偏差。在这方面，CE损失最初表示为[12]：两阶段跟踪器剩下的一个主要缺点是它们不能处理数据不平衡问题。为了解决这一问题，本文重新定义了交叉熵损失(CE)来消除在线学习过程中的班级偏差。在这方面，CE损失最初表示为[12]：两阶段跟踪器剩下的一个主要缺点是它们不能处理数据不平衡问题。为了解决这一问题，本文重新定义了交叉熵损失(CE)来消除在线学习过程中的班级偏差。在这方面，CE损失最初表示为[12]：

其中，α，γ和β是超级参数，规定了考生处罚的金额和位置。建议的调整项降低了简单候选(pt 0.5)的权重，同时试图保持硬候选(pt 0.5)不变。作为pt→1，调制项减少，并且作为pt→0，调制项保持硬候选的影响不变。通过提出的损失函数，我们的跟踪器可以通过随机梯度下降(SGD)以在线的方式进行训练，从而缓解了容易否定的候选相对于硬否定和硬否定候选的优势，从而解决了过拟合问题。利用这种手工设计的丢失和结构域自适应策略，可以在Conv-5到Conv-6层中对序列特定的上下文进行精心建模。因此，我们的跟踪器设法将目标外观变化、背景杂乱和干扰对象考虑在内，而不会出现过适应问题。

4. Tracking Algorithm

在这一部分中，首先描述了我们的跟踪器算法和采样方案。然后，详细说明了我们跟踪器更新阶段的长期策略和短期策略。

4.1. Online Tracking Procedure

Processed: 0.013, SQL: 9