Relational Knowledge Distillation解读

    科技2022-08-08  144

    Relational Knowledge Distillation解读

    Relational Knowledge DistillationTitleSummaryResearch ObjectiveProblem StatementMethod(s)EvaluationConclusionNotes

    Relational Knowledge Distillation

    Conference: CVPR2019 Created: Oct 3, 2020 4:21 PM Last Edit Time: Oct 5, 2020 11:21 AM Property: Knowledge Distillation

    Title

    W. Park, D. Kim, Y. Lu, and M. Cho, ‘Relational Knowledge Distillation’, arXiv:1904.05068 [cs], May 2019, Accessed: Sep. 12, 2020. [Online]. Available: http://arxiv.org/abs/1904.05068.

    Summary

    知识蒸馏任务中,作者提出迁移样本间的关系(结构信息)会优于迁移单个样本的特征,例如:两个样本间的距离,三个样本间的角度。

    Research Objective

    知识蒸馏:将大模型的知识迁移小模型中。

    Problem Statement

    如何将知识从大模型迁移到小模型,过去的方法考虑单个样本在大模型和小模型间的迁移,本文作者提出,迁移样本间的关系(结构信息)会优于迁移单个样本特征。基于这一思想,我们还需要思考衍生问题:样本间的关系(结构信息)该如何表示。

    传统KD和Relational KD的对比

    过去的方法怎么考虑知识蒸馏?或者说,如何进行单样本间的知识蒸馏呢?

    l l l作为惩罚Teacher和Student间差异的损失函数,对于 l l l来说,有以下几种做法:

    (1) Hinton et al中使用softmax前的结果 f T f_T fT f S f_S fS作为输入,根据公式(2)计算KL散度来度量两个输出的差异。

    (2) Romero et al使用隐藏层激活函数的结果 f T f_T fT f S f_S fS进行知识迁移, l l l选择了平方欧式距离,见公式(3)(由于Student隐层输出的维度一般小于Teacher,所以需要一个映射 β \beta β) 以上这些方法都被称为Individual KD(IKD),表示样本间的知识蒸馏。

    Method(s)

    针对多样本间的关系,提出Relational Knowledge Distillation(RKD).

    思想:关系这样的高阶属性较之低阶属性,更具有不变性,有更好的效果。

    具体:distance-wise and angle-wise distillation loss X^N 表示N个不同样本。

    Distance-wise loss

    Angle-wise distillation loss

    Overall objective

    Evaluation

    作者如何评估自己的方法,有没有问题或者可以借鉴的地方

    在三个任务上进行评估, metric learning, classification and few-shot learning.

    metric learning(recall@K)

    Image classification(Acc)

    Few-shot learning(Acc) better than teacher.

    Conclusion

    Strong conclusion: 在Knowledge Distillation中,Relational Knowledge Distillation能够有效地改进Student模型的性能。

    Weak conclusion:

    Notes

    暂无

    Processed: 0.009, SQL: 8