SlowFast Networks for Video Recognition

    科技2025-06-13  18

    慢快网络用于视频识别

    AbstractIntroductionSlowFast Networks Slow pathway Fast pathway  高帧率  高分辨率的时间特征  轻量级  侧连接(横向连接) 实例化 ExperimentsConclusion

    Abstract

    模型包括: ① 一条Slow网络,输入为低帧率,用来捕获空间语义信息。 ② 一条Fast网络,输入为高帧率,以精细的时间分辨率来捕捉 运动信息。(Fast网络是一个轻量级的网络) 两条通路通过横向连接融合。

    Introduction

      对于空间维度,空间语义信息是变化缓慢的。但对于运动维度,运动相比于发生运动的实体来说,变化是非常快的。基于这些,作者提出来一个双路的SlowFast网络。   作者专门强调了SlowFast网络受到生物学中灵长类视觉系统中视网膜节细胞的启发。在视网膜节细胞中,80%是P-cell, 20%是M-cell,其中M-cell,接受高帧率信息,负责响应运动变化,对空间和颜色信息不敏感。P-cell处理低帧率信息,负责精细的空间和颜色信息。而这正对应于SlowFast网络的两路

    SlowFast Networks

     Slow pathway

      对于一个video clip, Slow 网络的每τ帧采样一帧作为输入。假定该网络的输入为T 帧,则该视频clip的长度为τ × T 。

     Fast pathway

      高帧率

      Fast网络相比于Slow网络,处理高帧率的信息,则每τ/α帧采样一帧作为输入,也就是输入为αT帧。 (α=8 默认)

      高分辨率的时间特征

      不使用空间降采样层。

      轻量级

      相比于Slow网络,channel为其β倍(β<1)。一般计算复杂度(FLOPs)于channel为二次关系,所以在SlowFast中,Fast网络占到20%左右的计算量。

     侧连接(横向连接)

      侧连接连接Fast和Slow网络,达到信息融合的目的。在每个阶段,将Fast输出链接到Slow中。作者也尝试了双向连接,但是没有效果的提升。 最后是全局平局池化,双路信息串联,后接一个全连接层用来分类。

     实例化

      ……

    Experiments

      待补充

    Conclusion

      快慢网络达到了最先进的视频动作分类和检测精度。我们希望这种SlowFast的概念将促进对视频识别的进一步研究。

    Processed: 0.010, SQL: 8