文章目录
0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴
0. 前言
相关资料:
arxivgithub论文解读 论文基本信息
领域:时空行为检测作者单位:Google发表时间:ECCV 2020
1. 要解决什么问题
视频分类的进展十分迅速,但时空行为检测的进展却比较一般
作者认为其中一个主要原因是:时空行为检测的数据标注困难较高,需要标注视频中的每一帧图像。
2. 用了什么方法
目标:只是用 clip-level 的标签训练时空行为检测模型。具体目标如下图:
使用弱监督学习的方法训练时空行为检测模型
主要思想是引入了 Multiple Instance Learning。除了 MIL 外,其他部分的实现差不多都引用了之前的工作,比如tubelet间的link等。 Multiple Instance Learning 的基本概念
假设一个bag中有多个instances,MIL的作用就是:训练时只知道bag的标签,不知道每个instance的标签,但训练结果是能够知道每个instance的标签。在时空行为检测中,bag只得就是一个clip视频,instance值得就是tubelet。MIL的思路就是利用概率论中的方法:
我们要计算的是 instance level 的概率
p
i
j
p_{ij}
pij,即第i个clip中第j个instance的对于某一类别的概率。这个概率值可通过神经网络获取。通过 instance level 的概率可以得到 clip-level 的概率,即 其中,g函数就是聚合函数,即如何从instance level的概率转换为clip level的概率,文中有一些介绍,但经过试验,起始max pool的性能是最好的。得到了 clip-level 的概率后,就能通过普通的多分类来训练了。 为了处理 MIL 中的一些特殊情况,引入了 uncertainty loss,具体没细看。
3. 效果如何
用弱监督学习效果都不错
4. 还存在什么问题&有什么可以借鉴
因为不能用于实时,所以很多问题都没有细看,比如tubelet生成是否是detector+tracker,uncertainty的实现细节是啥。
如果在有 clip-level 的标注结果时,可以关注这一篇。