在人的感知系统所获得的信息中,视觉信息大约占到80%~85%。行人重识别(person re-identification)是近几年智能视频分析领域兴起的一项新技术,属于在复杂视频环境下的图像处理和分析范畴,是许多监控和安防应用中的主要任务,并且在计算机视觉领域获得了越来越多的关注。下面我们就仔细来聊聊行人重识别(ReID)。
首先,假如有两张输入图片 I 1 {I_1} I1和 I 2 {I_2} I2,通过网络我们可以得到他们的特征 f I 1 {f_{{I_1}}} fI1和 f I 2 {f_{{I_2}}} fI2。我们定义这两张图片特征向量的欧式距离为: d I 1 , I 2 = ∥ f I 1 − f I 1 ∥ 2 {d_{{I_1},{I_2}}} = {\left\| {{f_{{I_1}}} - {f_{{I_1}}}} \right\|_2} dI1,I2=∥fI1−fI1∥2 1)对比损失(Contrastive loss) 对比损失用于训练孪生网络(Siamese network),其结构图如上图6所示。孪生网络的输入为一对(两张)图片 x 1 {x_1} x1和 x 2 {x_2} x2,这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签 y y y,其中 y = 1 y = 1 y=1,表示两张图片属于同一个行人(正样本对),反之 y = 0 y = 0 y=0表示它们属于不同行人(负样本对)。之后,对比损失函数写作: L c = y E w 2 + ( 1 − y ) ( α − E w ) + 2 {L_c} = yE_w^2 + (1 - y)(\alpha - {E_w})_ + ^2 Lc=yEw2+(1−y)(α−Ew)+2,其中 E w = ∥ G w ( x 1 ) − G w ( x 2 ) ∥ {E_w} = \left\| {{G_w}({x_1}) - {G_w}({x_2})} \right\| Ew=∥Gw(x1)−Gw(x2)∥
图6其中 ( z ) + {(z)_ + } (z)+表示 max ( z , 0 ) \max (z,0) max(z,0), α \alpha α是根据实际需求设计的阈值参数。为了最小化损失函数,当网络输入一对正样本对, E w {E_w} Ew会逐渐变小,即相同ID的行人图片会逐渐在特征空间形成聚类。反之,当网络输入一对负样本对时, E w {E_w} Ew 会逐渐变大直到超过设定的 α \alpha α,通过最小化 L c {L_c} Lc,最后可以使得正样本对之间的距离逐渐变小,负样本对之间的距离逐渐变大,从而满足行人重识别任务的需要。 (2)三元组损失(Triplet loss):三元组损失是一种被广泛应用的度量学习损失,之后的大量度量学习方法也是基于三元组损失演变而来。顾名思义,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。三张图片分别命名为固定图片(Anchor) a a a,正样本图片(Positive) p p p和负样本图片(Negative) n n n。图片 a a a 和图片 p p p 为一对正样本对,图片 a a a 和图片 n n n 为一对负样本对。则三元组损失表示为: L t = ( d a , p − d a , n + α ) + {L_t}{\rm{ = (}}{{\rm{d}}_{a,p}}{\rm{ - }}{{\rm{d}}_{a,n}}{\rm{ + }}\alpha {{\rm{)}}_ + } Lt=(da,p−da,n+α)+如下图7所示,三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。
图7 原版的Triplet loss只考虑正负样本对之间的相对距离,而并没有考虑正样本对之间的绝对距离,为此提出改进三元组损失(Improved triplet loss):L t t = d a , p + ( d a , p − d a , n + α ) + {L_t}{\rm{t = }}{{\rm{d}}_{a,p}} + {{\rm{(}}{{\rm{d}}_{a,p}}{\rm{ - }}{{\rm{d}}_{a,n}}{\rm{ + }}\alpha {\rm{)}}_ + } Ltt=da,p+(da,p−da,n+α)+公式添加 d a , p {{\rm{d}}_{a,p}} da,p$项,保证网络不仅能够在特征空间把正负样本推开,也能保证正样本对之间的距离很近。 (3) 四元组损失(Quadruplet loss):四元组损失是三元组损失的另一个改进版本。顾名思义,四元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor) a a a,正样本图片(Positive) p p p ,负样本图片1(Negative1) n 1 n1 n1 和负样本图片2(Negative2) n 2 n2 n2 。其中 n 1 n1 n1和 n 2 n2 n2 是两张不同行人ID的图片,其结构则四元组损失表示为: q = ( d a , p − d a , n 1 + α ) + + ( d a , p − d a , n 2 + β ) + q{\rm{ = (}}{{\rm{d}}_{a,p}} - {{\rm{d}}_{a,{n_1}}}{\rm{ + }}\alpha {{\rm{)}}_ + } + {{\rm{(}}{{\rm{d}}_{a,p}} - {{\rm{d}}_{a,{n_2}}}{\rm{ + }}\beta {\rm{)}}_ + } q=(da,p−da,n1+α)++(da,p−da,n2+β)+其中 α \alpha α 和 β \beta β 是手动设置的正常数,通常设置 β \beta β 小于$ \alpha$ ,前一项称为强推动,后一项称为弱推动。相比于三元组损失只考虑正负样本间的相对距离,四元组添加的第二项不共享ID,所以考虑的是正负样本间的绝对距离。因此,四元组损失通常能让模型学习到更好的表征。 (4)难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss):难样采样三元组损失(本文之后用TriHard损失表示)是三元组损失的改进版。传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。之前提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。TriHard损失的核心思想是:对于每一个训练batch,随机挑选 P P P 个ID的行人,每个行人随机挑选 K K K 张不同的图片,即一个batch含有 P × K P \times K P×K 张图片。之后对于batch中的每一张图片 a a a ,我们可以挑选一个最难的正样本和一个最难的负样本和 a a a 组成一个三元组。首先我们定义和 a a a 为相同ID的图片集为 A A A ,剩下不同ID的图片图片集为 B B B,则TriHard损失表示为: L t h = 1 P × K ∑ a ∈ b a t c h ( max p ∈ A d a , p − min n ∈ B d a , n + α ) + {L_{th}} = {1 \over {P \times K}}{\sum\limits_{a \in batch} {(\mathop {\max }\limits_{p \in A} {d_{a,p}} - \mathop {\min }\limits_{n \in B} {d_{a,n}} + \alpha )} _ + } Lth=P×K1a∈batch∑(p∈Amaxda,p−n∈Bminda,n+α)+其中 α \alpha α 是人为设定的阈值参数。TriHard损失会计算 a a a 和batch中的每一张图片在特征空间的欧式距离,然后选出与 a a a 距离最远(最不像)的正样本 p p p 和距离最近(最像)的负样本 n n n 来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。 ③基于局部特征的ReID方法:早期的ReID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。(1)图片8切块是一种很常见的提取局部特征方式。如下图所示,图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到水平切割。
图8 为了解决图像不对齐情况下手动图像切片失效的问题,一些论文利用一些先验知识先将行人进行对齐,这些先验知识主要是预训练的人体姿态(Pose)和骨架关键点(Skeleton) 模型。论文先用姿态估计的模型估计出行人的关键点,然后用仿射变换使得相同的关键点对齐。如下图9所示,一个行人通常被分为14个关键点,这14个关键点把人体结果分为若干个区域。为了提取不同尺度上的局部特征,作者设定了三个不同的PoseBox组合。之后这三个PoseBox矫正后的图片和原始为矫正的图片一起送到网络里去提取特征,这个特征包含了全局信息和局部信息。特别提出,这个仿射变换可以在进入网络之前的预处理中进行,也可以在输入到网络后进行。如果是后者的话需要需要对仿射变换做一个改进,因为传统的仿射变化是不可导的。为了使得网络可以训练,需要引入可导的近似放射变化,在本文中不赘述相关知识。 图9 (3)CVPR2017的工作Spindle Net也利用了14个人体关键点来提取局部特征。和论文(1)不同的是,Spindle Net并没有用仿射变换来对齐局部图像区域,而是直接利用这些关键点来抠出感兴趣区域(Region of interest, ROI)。Spindle Net网络如下图10所示,首先通过骨架关键点提取的网络提取14个人体关键点,之后利用这些关键点提取7个人体结构ROI。网络中所有提取特征的CNN(橙色表示)参数都是共享的,这个CNN分成了线性的三个子网络FEN-C1、FEN-C2、FEN-C3。对于输入的一张行人图片,有一个预训练好的骨架关键点提取CNN(蓝色表示)来获得14个人体关键点,从而得到7个ROI区域,其中包括三个大区域(头、上身、下身)和四个四肢小区域。这7个ROI区域和原始图片进入同一个CNN网络提取特征。原始图片经过完整的CNN得到一个全局特征。三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。之后这8个特征按照图示的方式在不同的尺度进行联结,最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。 图10 (4)图11提出了一种全局-局部对齐特征描述子(Global-Local-Alignment Descriptor, GLAD),来解决行人姿态变化的问题。与Spindle Net类似,GLAD利用提取的人体关键点把图片分为头部、上身和下身三个部分。之后将整图和三个局部图片一起输入到一个参数共享CNN网络中,最后提取的特征融合了全局和局部的特征。为了适应不同分辨率大小的图片输入,网络利用全局平均池化(Global average pooling, GAP)来提取各自的特征。和Spindle Net略微不同的是四个输入图片各自计算对应的损失,而不是融合为一个特征计算一个总的损失。 图11 (5)以上所有的局部特征对齐方法都需要一个额外的骨架关键点或者姿态估计的模型。而训练一个可以达到实用程度的模型需要收集足够多的训练数据,这个代价是非常大的。为了解决以上问题,AlignedReID提出基于SP距离的自动对齐模型如图12,在不需要额外信息的情况下来自动对齐局部特征。而采用的方法就是动态对齐算法,或者也叫最短路径距离。这个最短距离就是自动计算出的local distance。 图12 较新的可以看看 PCB和 EAnet ④基于视频序列的ReID方法:目前单帧的ReID研究还是主流,因为相对来说数据集比较小,哪怕一个单GPU的PC做一次实验也不会花太长时间。但是通常单帧图像的信息是有限的,因此有很多工作集中在利用视频序列来进行行人重识别方法的研究。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息,还考虑了帧与帧之间的运动信息等。 基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征,而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。13图是非常典型的思路,网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征,之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。而这个特征用于代替前面单帧方法的图像特征来训练网络。 图13 视频序列类的代表方法之一是累计运动背景网络(Accumulative motion context network, AMOC)。AMOC输入的包括原始的图像序列和提取的光流序列。通常提取光流信息需要用到传统的光流提取算法,但是这些算法计算耗时,并且无法与深度学习网络兼容。为了能够得到一个自动提取光流的网络,作者首先训练了一个运动信息网络(Motion network, Moti Nets)。这个运动网络输入为原始的图像序列,标签为传统方法提取的光流序列。如图14所示,原始的图像序列显示在第一排,提取的光流序列显示在第二排。网络有三个光流预测的输出,分别为Pred1,Pred2,Pred3,这三个输出能够预测三个不同尺度的光流图。最后网络融合了三个尺度上的光流预测输出来得到最终光流图,预测的光流序列在第三排显示。通过最小化预测光流图和提取光流图的误差,网络能够提取出较准确的运动特征。 图14AMOC的核心思想在于网络除了要提取序列图像的特征,还要提取运动光流的运动特征。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。而相邻的两帧将会送到Moti Nets来提取光流图特征。之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。通过AMOC网络,每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。网络采用了分类损失和对比损失来训练模型。融合了运动信息的序列图像特征能够提高行人重识别的准确度。 论文从另外一个角度展示了多帧序列弥补单帧信息不足的作用,目前大部分video based ReID方法还是不管三七二十一的把序列信息输给网络,让网络去自己学有用的信息,并没有直观的去解释为什么多帧信息有用。则很明确地指出当单帧图像遇到遮挡等情况的时候,可以用多帧的其他信息来弥补,直接诱导网络去对图片进行一个质量判断,降低质量差的帧的重要度。如图15,文章认为在遮挡较严重的情况下,如果用一般的pooling会造成attention map变差,遮挡区域的特征会丢失很多。而利用论文的方法每帧进行一个质量判断,就可以着重考虑那些比较完整的几帧,使得attention map比较完整。而关键的实现就是利用一个pose estimation的网络,论文叫做landmark detector。当landmark不完整的时候就证明存在遮挡,则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络,让网络对每帧进行一个权重判断,给高质量帧打上高权重,然后对feature map进行一个线性叠加。思路比较简单但是还是比较让人信服的。
图15 ⑤基于局部特征的ReID方法:ReID有一个非常大的问题就是数据获取困难,截止CVPR18 deadline截稿之前,最大的ReID数据集也就小几千个ID,几万张图片(序列假定只算一张)。因此在ICCV17 GAN造图做ReID挖了第一个坑之后,就有大量GAN的工作涌现,尤其是在CVPR18 deadline截稿之后arxiv出现了好几篇很好的paper。论文是第一篇用GAN做ReID的文章,发表在ICCV17会议,虽然论文比较简单,但是作为挖坑鼻祖引出一系列很好的工作。如下图16,这篇论文生成的图像质量还不是很高,甚至可以用很惨来形容。另外一个问题就是由于图像是随机生成的,也就是说是没有可以标注label可以用。为了解决这个问题,论文提出一个标签平滑的方法。实际操作也很简单,就是把label vector每一个元素的值都取一样,满足加起来为1。反正也看不出属于哪个人,那就一碗水端平。生成的图像作为训练数据加入到训练之中,由于当时的baseline还不像现在这么高,所以效果还挺明显的,至少数据量多了过拟合能避免很多。
图16 ReID还有个问题就是数据集存在bias,这个bias很大一部分原因就是环境造成的。为了克服这个bias,使用GAN把一个数据集的行人迁移到另外一个数据集。为了实现这个迁移,GAN的loss稍微设计了一下,一个是前景的绝对误差loss,一个是正常的判别器loss。判别器loss是用来判断生成的图属于哪个域,前景的loss是为了保证行人前景尽可能逼真不变。这个前景mask使用PSPnet来得到的,还有就是提出了一个MSMT17数据集,是个挺大的数据集,已经public出来。ReID的其中一个难点就是姿态的不同,为了克服这个问题论文使用GAN造出了一系列标准的姿态图片。论文总共提取了8个pose,这个8个pose基本涵盖了各个角度。每一张图片都生成这样标准的8个pose,那么pose不同的问题就解决。最终用这些图片的feature进行一个average pooling得到最终的feature,这个feature融合了各个pose的信息,很好地解决的pose bias问题。无论从生成图还是从实验的结果来看,这个工作都是很不错的。这个工作把single query做成了multi query,但是你没法反驳,因为所有的图都是GAN生成的。除了生成这些图需要额外的时间开销以外,并没有利用额外的数据信息。当然这个工作也需要一个预训练的pose estimation网络来进行pose提取。
2.1.如果识别结果是m1、m2、m3、m4、m5……,则此时rank-1的正确率为100%;rank-2的正确率也为100%;rank-5的正确率也为100%; 2.2.如果识别结果是m2、m1、m3、m4、m5……,则此时rank-1的正确率为0%;rank-2的正确率为100%;rank-5的正确率也为100%; 2.3.如果识别结果是m2、m3、m4、m5、m1……,则此时rank-1的正确率为0%;rank-2的正确率为0%;rank-5的正确率为100%; 同理,当待识别的人脸集合有很多时,则采取取平均值的做法。例如待识别人脸有3个(假如label为m1,m2,m3),同样对每一个人脸都有一个从高到低的得分,
2-1.比如人脸1结果为m1、m2、m3、m4、m5……,人脸2结果为m2、m1、m3、m4、m5……,人脸3结果m3、m1、m2、m4、m5……,则此时rank-1的正确率为(1+1+1)/3=100%;rank-2的正确率也为(1+1+1)/3=100%;rank-5的正确率也为(1+1+1)/3=100%; 2-2.比如人脸1结果为m4、m2、m3、m5、m6……,人脸2结果为m1、m2、m3、m4、m5……,人脸3结果m3、m1、m2、m4、m5……,则此时rank-1的正确率为(0+0+1)/3=33.33%;rank-2的正确率为(0+1+1)/3=66.66%;rank-5的正确率也为(0+1+1)/3=66.66%; 3.Precision & Recall & mAP
一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。
正确率 = 提取出的正确信息条数 / 提取出的信息条数 召回率 = 提取出的正确信息条数 / 样本中的信息条数 准确率和召回率都是针对同一类别来说的,并且只有当检索到当前类别时才进行计算,比如在person re-id中,一个人的label为m1,在测试集中包含3张此人的图像,检索出来的图像按照得分从高到低顺序为m1、m2、m1、m3、m4、m1….,此时3.1.第一次检索到m1,提取出的正确信息条数=1,提取出的信息条数=1,样本中的信息条数=3,正确率=1/1=100%,召回率=1/3=33.33%; 3.2.第二次检索到m1,提取出的正确信息条数=2,提取出的信息条数=3,样本中的信息条数=3,正确率=2/3=66.66%,召回率=2/3=66.66%; 3.3.第三次检索到m1,提取出的正确信息条数=3,提取出的信息条数=6,样本中的信息条数=3,正确率=3/6=50%,召回率=3/3=100%;
平均正确率AP=(100%+66.66%+50%)/3=72.22% 而当需要检索的不止一个人时,此时正确率则取所有人的平均mAP。 4.F-Score从上面准确率和召回率之间的关系可以看出,一般情况下, P r e c i s i o n Precision Precision高, R e c a l l Recall Recall就低, R e c a l l Recall Recall高, P r e c i s i o n Precision Precision就低。所以在实际中常常需要根据具体情况做出取舍,例如一般的搜索情况,在保证召回率的条件下,尽量提升精确率。很多时候我们需要综合权衡这2个指标,这就引出了一个新的指标 F − s c o r F-scor F−score。这是综合考虑 P r e c i s i o n Precision Precision和 R e c a l l Recall Recall的调和值。
F − S c o r e = ( 1 + β 2 ) Pr e c i s i o n R e c a l l β 2 Pr e c i s i o n + R e c a l l F - Score = (1 + {\beta ^2}){{\Pr ecision{\mathop{\rm Re}\nolimits} call} \over {{\beta ^2}\Pr ecision + {\mathop{\rm Re}\nolimits} call}} F−Score=(1+β2)β2Precision+RecallPrecisionRecall 当 β = 1 β=1 β=1时,称为 F 1 − s c o r e F1-score F1−score,这时,精确率和召回率都很重要,权重相同。当有些情况下,我们认为精确率更重要些,那就调整β的值小于1,如果我们认为召回率更重要些,那就调整β的值大于1。
比如在上面的例子中,在第三次检索到m1时的争取率为50%,召回率为100%,则F1-score=(20.51)/(0.5+1)=66.66%,而F0.5-score=(1.250.51)/(0.25*0.5+1)=55.56%