论文浏览(48) Online Learnable Keyframe Extraction&Application with Semantic Word Vector in Action Recogn

科技2022-07-14 147

文章目录

0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴

0. 前言

论文名称：Online Learnable Keyframe Extraction in Videos and its Application with Semantic Word Vector in Action Recognition相关资料： arxivgithub论文解读论文基本信息领域：视频理解作者单位：加拿大 University of Alberta发表时间：2020.9

1. 要解决什么问题

一般视频理解相关网络的输入数据是若干帧尺寸相同的图片。这种类型的输入存在一些问题：相邻帧可能存在大量的数据冗余，视频理解相关网络的模型大，需要的算力多。解决上面所述问题的一种方案是使用“关键帧”的思想即在输入视频中提取关键帧，对关键帧执行行为识别等任务。之前关于“关键帧”的解决方案都存在一些问题：第一，已有方法的关键帧选取都是人工手动选择的。第二，对于变化很大的动作，可能分类效果不佳。第三，需要一个非常复杂的方法来确认提取哪些帧作为输入。第四，都不是Online的方法（比如，手工选择关键帧）

2. 用了什么方法

提出了 Online Keyframe extraction module(OKFEM) 本文所有方法的核心就是提取关键帧，而本模块就是在线提取关键帧。Motion Submodule：首先通过ResNet+DCN获取每帧图片的信息,相邻帧之间的信息相减得到 motion information（即 r(t)），类似于光流的原理。之后计算r(t)与一个阈值矩阵TH的差值，得到最终得分s(t)，根据得分来确定当前帧是不是关键帧。注意，得分应该是矩阵累加和。 Appearance Submodule 每一帧的appearance信息是通过：原始帧信息与DCN特征图累加，并经过卷积得到。相邻帧的appearance累加，得到当前帧的最终appearance信息。最终也是通过 Motion Submodule 中的关键帧选择结果，来确定是否将当前帧的 appearance 信息用于后续网络中。训练 OKFEM 需要不一样的数据集与损失函数损失函数的形式为：其中，，Y表示GT关键帧。

\alpha

和

\beta

的作用是平衡“最小化损失函数”和“最大化关键帧得分”，前者控制了关键帧选取的准确率，后者控制了要选择多少关键帧。这两个数值时根据经验得到的，属于超参数。行为识别网络注意，OKFEM 模块是在 Video summarization 数据集上训练的，直接用在 action recognition 上。OKFEM 得到的 motion 信息与 appearance 信息可作为普通行为识别网络的双流输入。行为识别中用到了 ITTS（iterative train/test strategy）模块，引入了 W2V 的思想。 ITTS 模块（即上图中虚线部分）以分类模型以及对应行为类别的W2V作为输入（猜测就是两个特征CONCAT一下)，经过两层FC得到一个特征（这个特征的尺寸与W2V的尺寸相同）。猜测W2V每一个行为类别对应一个vector，FC2的输出就是新的W2V（就是论文中提到的 refined W2V）。训练过程中，更新过程如下图：核心就是用FC2的数值更新对应的w2v，连续判断3次为同一类别时结束。测试过程就是对每一个行为类别分别计算，取最大值

3. 效果如何

通过实验，选择 OKFEM 中

\alpha \beta

的取值做实验验证提取关键帧的作用通过实验证明提取关键帧以及W2V的作用 OKFEM 模块在 video summarization 中效果也不错在行为识别中，效果也特别好

4. 还存在什么问题&有什么可以借鉴

OKFEM 模块看起来效果不错，但真正用于online应用中，恐怕效果不会好，毕竟使用的是ResNet+DCN的结构，不过值得尝试。

起始可以了解一下 video summarization 这个领域。

Processed: 0.012, SQL: 8

论文浏览(48) Online Learnable Keyframe Extraction&amp;Application with Semantic Word Vector in Action Recogn