论文浏览(49) Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

科技2022-08-15 102

文章目录

0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴

0. 前言

相关资料： arxivgithub论文解读论文基本信息领域：时空行为检测作者单位：Google发表时间：ECCV 2020

1. 要解决什么问题

视频分类的进展十分迅速，但时空行为检测的进展却比较一般作者认为其中一个主要原因是：时空行为检测的数据标注困难较高，需要标注视频中的每一帧图像。

2. 用了什么方法

目标：只是用 clip-level 的标签训练时空行为检测模型。具体目标如下图：使用弱监督学习的方法训练时空行为检测模型主要思想是引入了 Multiple Instance Learning。除了 MIL 外，其他部分的实现差不多都引用了之前的工作，比如tubelet间的link等。 Multiple Instance Learning 的基本概念假设一个bag中有多个instances，MIL的作用就是：训练时只知道bag的标签，不知道每个instance的标签，但训练结果是能够知道每个instance的标签。在时空行为检测中，bag只得就是一个clip视频，instance值得就是tubelet。MIL的思路就是利用概率论中的方法：我们要计算的是 instance level 的概率

p_{ij}

，即第i个clip中第j个instance的对于某一类别的概率。这个概率值可通过神经网络获取。通过 instance level 的概率可以得到 clip-level 的概率，即其中，g函数就是聚合函数，即如何从instance level的概率转换为clip level的概率，文中有一些介绍，但经过试验，起始max pool的性能是最好的。得到了 clip-level 的概率后，就能通过普通的多分类来训练了。为了处理 MIL 中的一些特殊情况，引入了 uncertainty loss，具体没细看。

3. 效果如何

用弱监督学习效果都不错

4. 还存在什么问题&有什么可以借鉴

因为不能用于实时，所以很多问题都没有细看，比如tubelet生成是否是detector+tracker，uncertainty的实现细节是啥。

如果在有 clip-level 的标注结果时，可以关注这一篇。

Processed: 0.017, SQL: 9