作者使用了Kinetics-400数据集、Kinetics-600数据集以及Charades数据集来进行了对于动作分类的实验。
训练:
网络的初始化采用随机初始化(random initialization, “scratch”),没有使用ImageNet或其他预训练。整个网络的训练采用synchronized SGD training。
对于时域,文章在视频中随机取样了一段长为 α T × τ \alpha T\times\tau αT×τ的视频片段,所以slow和fast两个通道的输入分别为 T T T和 α T \alpha T αT帧;对于空间域来说,文章中在视频中随机取样了 224 × 224 224\times224 224×224像素。
推断:
根据之前的经验,论文沿着时间轴从视频中截取出了10个片段,对每个片段,作者都将短边缩放为256像素,并且从每个片段中都取出3个256*256像素的片段来覆盖整个空间域,来近似一个full-convolutional的过程。最后统计出softmax分数来进行预测。
数据集:
Kintics-400由大概240k个training video和大概20k个validation video组成,动作的类别是400。Kinetics由大概392k个training video和大概30k个validation video组成,动作的类别是600。文章中汇报了top-1和top-5准确率。同时文章汇报了计算一个在时域和空间域都经过裁剪后的视频片段的计算量(用FLOPs的形式)
Charades有着大约9.8k的training video和大约1.8k的validation video,动作类别是157,但是每个动作都是多标签的,同时每个视频的持续时间也更长,大概30s。网络的表现由mean Average Precision(mAP)来进行汇报。