《论文阅读》Pose-guided Visible Part Matching for Occluded Person Re-ID

科技2022-08-30 109

留个笔记自用

Pose-guided Visible Part Matching for Occluded Person ReID

做什么

Person Re-identification行人重识别，给定一个查询图像（即源图像），行人重识别的目标是在多个不重叠的摄像机之间匹配人（即找到与源图像相同的人）

做了什么

Occluded Person ReID被遮挡者的重新识别，这样就会遇到两个问题，首先，对传统ReID的基于全局图像的监控可能不仅涉及目标人的信息，还涉及遮挡的干扰。多样化的遮挡，如颜色、位置和大小，增加了目标人物获得特征的难度。第二，被遮挡的身体部分有时表现出更多的区别性信息，而未被遮挡的身体部分具有相似的表现，导致不匹配的问题。

怎么做

整体结构由三个部分组成， pose-guided attention (PGA)姿态引导的注意力模块，pose-guided visibility predictor(PVP)姿态引导的可视化预测模块，feature correspondence特征对应模块首先是第一部分PGA模块，输入是整个结构的输入即行人图像I 这个模块也分为三个小部分，pose estimation姿态估计,pose encoder姿态编码，part attention generator部分注意力生成器首先是pose estimation部分，这部分采用了一个叫Openpose的结构这个结构的作用就是对输入图进行提取，提取出关键点热力图 K 和部分亲和字段L_p（理解上是各个关节点之间的关联肢体），得到类似↓的结果在整体结构中即是得到了K和L_p后，将其进行得到P，这里的⊕即异或运算，然后将这里得到的P作为输入进行F_pose的运算，这步就是为了得到姿态信息和关节关联部分（为了恢复遮挡部分）这里的PE是pose encoder姿态编码器，PGA是pose guide attention姿态引导的注意力，θ_e和θ_a都是两部分网络的参数，这里的PGA是一个1×1卷积和sigmoid函数得到的attention图得到的A是一堆二维图，每个元素a^h,w指示来自特征图F中(h, w)位置位于第i个部分的程度，这里的N_p是预定义部分的数量，所谓的预定义部分就是人体姿势的主要部位然后保留各个位置局部最大的激活值最后计算part feature即部位特征其中F_h,w是F在位置(h,w)的列向量，a^h,w即A中的位置元素。得到第i个部位特征f_i，这里得到的特征可以理解为整张图片姿态分割的多个部位的部位特征，姿态分割情况有这种设置方法（眼睛、鼻子、膝盖、手腕等等）然后是结构的第二大部分PVP部分因为不同的情况下不同的遮挡方式（比如摄像头1中遮挡的部分是手臂，摄像头2遮挡的部分是腿部），这里采用的相关计算方法是对姿态引导的可见部分的相关性计算，这部分承接了上部分计算得到的pose encoder结果F_pose即姿态信息特征，将其作为输入得到这里的PVP是由GAP、1×1卷积，BN，sigmoid组成，θ_v同理，是结构的参数，可以将这个v视为可视化部分的各部件的得分，N_p跟上面的同理，是总部件的数量当测试的时候，就可以使用来计算测试图片和数据库图片的距离，这里的I_p是测试图像，I_g是数据库图像，d_i是第i部件的部件特征，这个可以由上一个大结构得到。最后是最后一部分feature correspondence部分这里对每对图像的part feature也就是部件特征图化，对每个图像来说，假设有N_p个部件特征分类，则有N_p个点，各自分别是f_i的值，而连接两个点的边比如是i和j点，它们的边就是|f_i-f_j|这样展现出来的图的效果就是表示了对应可见的部位具有高相关性和对应可见部位的之间的连线具有高相关性之后计算得到相似度矩阵M，这里的M_i,i表示计算M矩阵中每个位置的元素的方法，这里M_i,i为1当且仅当两张图片的part feature中第一张图片的第i个部件和第二张图片的第i个部件的关联性较高，即匹配然后将非对角线的也做赋值这里的ε_i,j指的是第i个结点和第j个结点的连边，后面的M_i,j是第i个结点到第j个结点的平均移动数定义完矩阵和图结构后，采用二次规划得到最优解v，这样就可以表明哪一部分对适合匹配，这一适合匹配的相同部分对作为各部件的伪标签，这部分伪标签作为PVP的训练最后是结构的LOSS部分，LOSS分为三个LOSS，L_v可视性验证损失，用于自监督的验证学习，L_m部分匹配损失，用于增强部件相关性，L_c身份分类损失，用于保持部分特征。首先是第一个LOSS，L_v 二进制交叉熵损失，v_i^p代表的是测试图像的第i个部件，另外一个同理，v*就是第三部分得到的伪标签，表示两张图该部件的相关性。然后是第二个LOSS，L_m，在获得了相关性得分v**后，继续根据M来优化匹配函数前者是为了增强内部的一致性，后者是类似于正则项，意图从不同部件中抽取类似特征

最后是分类损失L_c 这里的CE就是cross-entropy，这个损失就很好理解了，就是普通的增强分类能力的损失

总结

1.有可能是我自己的问题，感觉好多地方论文里没有写清楚 2.总体思想无非就是利用姿态估计得到特征图，得到某一部件可见的分数，然后根据两张图可见部分的相关性来进行操作，但这个二次规划什么的感觉没什么必要，随便换个图卷积然后密度聚类也能做伪标签。但总体而言分部件和v的设计方式值得理解

Processed: 0.008, SQL: 10