Person Re-identification行人重识别,给定一个查询图像(即源图像),行人重识别的目标是在多个不重叠的摄像机之间匹配人(即找到与源图像相同的人)
Video-based Person Re-identification基于视频的人员重识别,相比于图片的重识别,这里的信息载体是视频形式,那么需要考虑的问题就多了许多,一段视频中可能会存在着冗余信息,或者说是无用信息,并且可能重要的分辨特征在帧数上出现的非常少,这需要重点捕捉。
整体结构由三个部分组成, feature extractor特征提取部分、Reference-aided Attentive Feature Aggregation特征融合部分、Multi-Granularity Attention多粒度部分 首先是第一部分特征融合部分,这部分的输入即源输入一段视频V,将其分为T帧后得到{I1,I2…IT},然后将分帧后的T个图像经过ResNet-50进行特征提取,得到各自的feature map Fall={F1,F2…FT},每个feature map都是H×W×C维度的。即T×H×W×C 然后对Fall进行average pooling操作得到FR,一个按照时序平均的特征图 然后是第二部分特征融合部分 得到了上述特征图之后,计算每个特征节点的特征图之间的联系 这里的yrj表示FR中的一个特征点,容易知道它是一个C维的,而这里的xi是Fall的某一frame的第i个特征点,同样也是C维的。 这里的Wμ和Wv都是训练参数 之后就可以得到各个特征点之间的(如这里是第i个特征点)和其他所有特征点间的关系向量 这里的D=H×W,也就是特征点的个数。这里可以理解成反映了全局和类似聚类的结构信息。此外,由于关系相对于参考节点以固定的扫描顺序堆叠成向量,所以空间几何信息也包含在关系向量中,也就是按顺序堆叠。 按照论文里的说法,对第i个特征点来说获得了与其他特征点的关系,这里其实就可以描述对其他节点的attention了。同样,可以把自己特征点的特征信息作为局部信息,关系特征作为全局信息。然后就是将不同域的两者组合 这里的θ(x)函数定义为ReLU(Wθx),而后面两个的定义方式与上面有一步类似 这里的所有W均是可训练参数,将得到的所有a堆叠起来得到最后的attention score, 注意的是这里的每个ai都是C维向量 最后再用softmax去定义不同空间和时间位置上的注意力分数,和原来的进行逐元素累乘,得到包含空间和时间维度注意力的特征点 同样也是C维的 最后是最后一个部分多粒度部分 对于一段视频来说,不同粒度可以更好的捕捉不同类型的特征,比如使用细粒度捕捉眼镜特征,粗粒度捕捉人体结构形状 首先输入是一个普通的feature map。维度是H×W×C。第一步先将它按照通道分割成N份,同时对FR进行相同的切割。对两者切割出来的各自部分进行 average pooling后得到FR,m这里的意思代表着对FR切割出来的第m部分进行pool后的结果,维度为Hm×Wm×C/N,Ft上也同样 之后对各自的Ft和FR的切割部分就可以采用上面的两个结构来进行计算 这里的m表示切割部分的index,x和y的定义方式和上面相同 最后是LOSS部分 这里采用了几个LOSS组合而成,LID就是所谓的ID分类损失(attention后加了一层BN和FC),LTr也是常见的三重损失 常见的trilet loss的样式,这里的a表示原类,p表示正类,n表示负类,这里同样也可以使用这个loss方式,不过是在feature维度上所使用的LOSS
1.看完之后懵懵懂懂。感觉Re-ID的论文怎么这么多都这么复杂 2.处理冗余和少有的特殊特征帧的操作不是很理解。或者说感觉这么做真的有意义吗。。多粒度的处理方式倒是可以采纳一下。