小白学习深度学习之视频描述（video caption）历年部分论文

科技2022-07-10 157

此篇文章参考自https://blog.csdn.net/sinat_35177634/article/details/88568491

首先对于视频描述的理解：

也就和字面意思一样，就是计算机对一段视频生成对应的描述。在我看来，视频描述就相当于是图像描述的进阶版，比起图像描述的空间信息之外，还需要一些时间上的信息以及对应的声音信息，总的来说就是需要提取更多的特征。

Sequence to Sequence -Video to Text

这个是视频描述相对来说比较早期的论文（15年写的），而这片论文也是没有脱离图像描述的基础，对视频的提取也就是对每帧图像使用CNN网络进行2D特征的提取（CNN网络也就是所谓的卷积神经网络）并且使用了光流图像提取的特征，并且整个视频的过程是在LSTM (长短记忆神经网络)模型上完成的，用隐含层来表示整个视频，再接着输入单词来逐个预测单词。并且在论文中介绍了一个新的模型：S2VT，他是由两个LSTM 网络叠加而成的，第一个LSTM是通过卷积升级网络提取到帧特征向量作为输入进行逐个编码，完成所有之后，就会逐个单词的生成一个句子（也就是先将视频拆分了图像，然后再对图像进行描述），并且在提高时序这件事上，计算了连续帧之间的光学流。这个模型避免了内容识别和句子生成的分离，直接学习输入视频与相应句子描述之间的映射关系，同时学习了一个以视觉特征为条件的语言模型。模型基本步骤：通过用CNN网络提取固定长度的图像特征，再通过LSTM网络将特征向量解码成构成图像描述的单词序列。并且使用的是单一的LSTM在输入视频序列和输出文本序列之间学习，也就是做到了编码和解码参数共享。两层LSTM结构的意思就是，顶层的对视觉特征进行建模，而第二层就是建立视觉序列隐藏状态表示的语言模型。对应的训练和推理过程：

一开始先由顶层LSTM接受帧序列并进行编码，而第二层的LSTM接受第一层的隐含状态h，并将其与零填充符相连然后编码，并在所有帧都输出隐含状态后，第二层送入起始符，促使其开始将收到的隐藏状态解码成单词序列，解码阶段的话，就是在已经知道帧序列的隐藏状态及之前输出的单词条件下，求预测句子的对数似然性。

并且使用了RGB帧和光学流图像作为对应的输入，以及最后的文本输入：（用1-N方式编码表示）

以及这篇论文对应的数据集。

微软视频描述语料库MPII电影描述语料库蒙特尔特诗品注释数据集

总结下来就是将视频按帧转换成图像，再对图像经过模型之后逐个单词生成句子，同时对视频帧的时间结构进行建模。（这就是视频描述的初期形态）这个是博主的总结：由于是早期的文章，忽略了很多东西，比如attention机制，更好的时序特征提取技术，还有一些语音和背景音等特征。这篇论文实施的时候，很大程度上依赖了LSTM网络本身的性质，时序特征也是靠模型自动学习的，甚至最后的视频特征和单词之间的关联也是靠LSTM模型自动学习，只是加了一个光流图像特征进行加权平均。

Video Description Genaration Incorporating SpatioTemporal Features and a Soft-Attention Mechanism

这篇论文的最大核心在于，讲soft-attention机制引入到视频描述中。这个模型大致就是采用一个用动作识别视频集训练的3-D CNN网络，再使用soft-attention机制来加权确定输入到RNN/LSTM的特征向量，再Decoder 得到视频描述。改进的地方就是在于怎么对视频特征进行提取（能更好的代表视频），作为输入。文中提了好久：

针对每帧来进行2D特征的提取这里用到了GoogleNet网络提取3D特征

其次就是：

2016年数据库MSR-VTT竞赛前两名的文章

竞赛类型的文章主要就是尽可能使用模型和特征，再对特征进行融合，或者是结果的筛选，也就是使用数量来弥补质量。

方法就是：使用不同的模型在不同类别的特征上进行训练从而来生成视频的描述，再使用一个评估网络来评估生成的句子和视频特征之间的关联性，从而选择关联性最好的作为最终的视频描述。

对于特征的提取，第一种是针对帧的特征（也就是把视频变成图像，是用最常见也是最火的GoogleNet来提取），第二种是基于视频片段的特征：这里也分成了两类： 1.人工特征：dense trajectories和使用C3D网络提取特征 2.使用数据库给出的一共20类视频类别信息。

再者就是评估网络：另一篇论文的话，使用了各种各样的类型特征，***图像特征，视频特征，环境音特征，语音特征和种类特征***将这些特征融合作为视频的表示。这篇文章最大的作用在于，发现了一个具有启发性的地方：不同类型的特征适用于不同类型的视频。，之后又开始了演变，就是提出了多任务学习来优化视频描述任务。也把视频描述当成了一个推演过程，通过视频特征时序来推演出对应的描述。而把任务分成了：

视频帧预测，使用前一部分的帧来预测后一部分的帧entailment genaration 是给出前提来推测结果，输入输出全是文字序列视频描述，他的encoder是使用视频帧预测的encoder，decoder使用 entailment generation中的decoder。

模型基本上都是 attention 和LSTM模型

Weakly Supervised Dense Video Captioning 2017 CVPR

这篇论文算是开启了视频描述的新篇章，主要在于对一个视频的各个区域和角度进行分布特征提取，对同一个视频，先提取出不同的区域序列，再对每个序列生成一句描述，而使用弱监督学习，主要是因为现在的视频描述数据库没有针对区域序列的描述数据，只有视频级描述，而用食品级描述来学习区域级描述。

Processed: 0.010, SQL: 8