《How transferable are features in deep neural networks》

    科技2022-07-11  128

    论文《How transferable are features in deep neural networks》

    该论文被NIPS2014收录,对于研究深度神经网络特征的可迁移性具有重要意义。本文实验了深度神经网络中不同层神经元的泛化性能和特异性,模型的迁移能力主要受到两个因素的影响:1)深度模型在越深的层,其专业性(specialization)越强,即越只能完成特定任务,这使得深度模型学习到的深层特征迁移性很差;2)模型在优化的过程中,层与层之间的参数的优化是有关联性,当固定浅层的权值,来训练高层权值时,会打破这种关联性,使得模型的能力变差,泛化能力也变差。上述两个问题在深度神经网络的不同层发生占比不一样。文章还证明了利用训练好的迁移特征,初始化一个新网络,不论初始化几层,都能够对增强模型最终的效果。

    对于一个深度神经网络来说,以AlexNet为例,它的第一层能够抽取对象的一些边、角特征,这些特征是具有很强的泛化能力的,而随着网络的加深,抽取的特征也越来越全局,越来越针对训练的数据集。因此,可以称模型的第一层为泛化层(general),最后一层为特异层(specific)。由此,作者提出了三个问题:1)是否可以对中间层的特异程度或者泛化程度进行量化;2)从泛化性到特异性的变化是突然的过程,还是逐渐的过程;3)这种转变发生在神经网络的什么位置。

    贡献 1、量化了神经网络层的泛化程度; 2、利用训练好的深度网络得到的特征作为迁移特征,测试了上文提到的影响模型迁移能力的两个因素; 3、量化了原始任务和目标任务之间的差异对迁移特征效果的影响; 4、利用迁移特征初始化的网络模型能够增强fine-tune后模型的泛化能力。

    如果目标数据集较小,模型的参数较多,那为了避免过拟合,可以将前面几层参数固定,只训练后几层;如果数据集较大,模型参数并不多,则可以全部进行训练。以上就是我们常见的finetune的过程。

    神经网络层与层之间有着一种共同训练的关系,如果固定一边,则很有可能影响到网络的训练结果。这同时说明了一个问题,中间层互相之间的连带影响要比浅层或者深层大;

    Processed: 0.051, SQL: 8