目前的方法不能使基于全局的模型同时有效利用两种不可或缺的特征:1、图像可解释性:模型在生成答案时应该依赖正确的图像区域;2、对问题敏感性:模型应该对问题的语言变化要敏感
所以论文作者提出了一种跨模型的训练策略叫Counterfactual Samples Synthesizing(反事实样本合成)。通过给图像或者问题加mask,然后对应的设定不同的标准答案,来生成反事实训练样本。用这些反事实样本加上原来的样本来训练模型,可以显著提高模型的图像可解释性和对问题敏感性,从而提升模型性能。
这个方法可以提高模型的泛化能力。
Figure1(a)虽然LMH和LMH+CSS两种模型的答案都是surfing,但是LMH关注的图像区域不对(图像可解释性较差)
Figure1(b)虽然两种模型对luggage颜色的回答都是blue,但是将luggage换成bus后,LMH模型的回答还是blue(对问题语言的敏感性较差)
Figure2展示了两种生成反事实样本的方法,(a)是原始样本;(b)是V-CSS:给图片中的关键区域加mask,并对应地修改标准答案;(c)是Q-CSS:给问题中的单词加mask,并对应地修改标准答案
Counterfactual Samples Synthesizing主要由三步构成:
1、使用原始样本训练模型
2、合成反事实样本(使用V-CSS或Q-CSS)
3、使用反事实样本训练模型
反事实样本合成的流程如下图:
cond服从0-1均匀分布,是超参数,用来设定使用V-CSS和Q-CSS的概率。=0.5性能最好。
VSS(或QSS)的流程又分为4步:
1. Initial Objects Selection (IO S EL )
初始区域对象的选择。构建一个更小的对象集I,计算里面的所有对象和I及QA的相似度得分,选出I中得分最高的 |I| 个对象区域。
2. Object Local Contributions Calculation
计算每个区域对象的局部贡献。计算每个区域对象生成ground truth answer的概率,概率越大的贡献越高
3. Critical Objects Selection (CO S EL )
继续选出K个局部贡献最高的区域对象组成对象集,K的值由给出满足下面式子的最小K值给出:
η在论文中设置为0.65.
4. Dynamic Answer Assigning (DA A SS )
动态设定反事实样本的答案。具体流程细节如下图:
使用和Q通过模型可以得到答案的集合(选出前N个得分最高的答案),然后就是集合-,
主要是消融实验,探索各个超参数对VQA-CP V2的性能的影响,
上图展示了不同的模型应用CSS的性能表现,可以看到LMH+CSS的性能是最好的:比baseline提高了6.9%,达到58.95%
上图都是LMH+CSS在VQA-CP v2的结果,可以从上图中看到(a)|I|=9性能最好,(b)关键单词数量为1时性能最好,(c)=0.5性能最好
1、CSS可以帮助模型基于正确的关键图像区域来做回答,抑制不相干区域的影响。
2、CSS可以帮助模型基于关键单词来做回答,比如强制模型在回答问题时理解整个问题。
