View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition

    科技2022-07-17  134

    这是一个论文的笔记 大致思路:对每一个动作视频选一个更好的角度进行旋转处理(这么理解,原来的数据集的摄像头的位置不咋地,导致数据集中的视频不咋地,而这篇论文做的就是给数据集中的每个视频自动找一个好的角度)然后送入主网络进行分类。 先通过view adaptation subnetwork 找到一个合适的角度,再变换,再分类

    整个网络模型

    如何进行变换

    αt,βt,γt是沿X轴、Y轴和Z轴顺时针旋转的角度 v‘是旋转后的位置

    LSTM如何找角度

    hrt是LSTM隐式输出向量,Wr是全连接层的权重,br是全连接层的偏置 dt是距离 h d t∈RN×1为其LSTM层的隐藏输出向量(这个我也分的不是很清楚,具体的看这里)

    端到端训练的反向传播

    J是一帧中关节个数

    是损失反向传播到视图自适应子网的输出

    CNN方面 简而言之就是:将骨架序列映射到称为骨架图的图像映射,然后对每一个关节点做一个变换

    floor是最大整数函数,vtj是第t帧的第j个关节,cmax和cmin分别是训练数据集中所有关节坐标的最大值和最小值

    12由1和10可得

    Processed: 0.010, SQL: 8