迁移学习

    科技2024-04-11  85

    按照学习方法可以将迁移学习分为下面的几大类

    基于样本的迁移学习

    基于特征的迁移学习 假设源域和目标域的特征不在一个空间。通过一些办法变换到一个特征空间,从而特征变得相似

    基于模型(参数)的迁移学习 神经网络的结构可以直接迁移,例如finetune,就是模型参数迁移

    基于关系的迁移学习

    迁移学习的问题,有两个基本的概念: 领域(Domain)和任务(Task) 领域是进行学习的主题,包括数据和生成这些数据的概率分布。D表示domain,P表示概率分布 迁移过程,涉及到源域(source domain)和目标域(target domain)。源域指的是有知识,有大量数据标注的领域,是我们要迁移的对象。而目标域是我们最终赋予知识,赋予标注的对象。

    任务是学习的目标,分为标签和标签对应的函数。

    迁移学习的思路

    开发算法最大限度地利用有标注的领域的知识,来辅助目标领域的知识获取和学习。

    核心是寻找源领域和目标领域之间的相似性,并加以合理利用。如何度量和利用这种相似性?

    相似性度量

    下面列出了集中常见的距离

    欧式距离闵可夫斯基距离马氏距离

    还有几种相似度:

    余弦相似度互信息皮尔逊相关系数Jaccard相关系数KL散度 D K L ( P ∣ ∣ Q ) = ∑ i = 1 P ( x ) l o g P ( x ) Q ( x ) D_{KL} (P || Q) = \sum_{i=1} P(x) log \frac{P(x)}{Q(x)} DKL(PQ)=i=1P(x)logQ(x)P(x) 注意KL散度衡量两个概率分布的距离,是一个非对称距离,即 D K L ( P ∣ ∣ Q ) ≠ D K L ( Q ∣ ∣ P ) D_{KL}(P|| Q) \neq D_{KL}(Q||P) DKL(PQ)=DKL(QP)JS距离

    几种度量准则

    最大均值差异 MMD 最大均值差异(Maximum mean discrepancy)是迁移学习中使用频率最高的度量。MMD度量在再生核希尔伯特(Reproducing Kernel Hilbert Space,RKHS)空间中两个分布的距离,是一种核学习方法。例如两个随机变量MMD的平房距离为: M M D 2 ( X , Y ) = ∣ ∣ ∑ i = 1 n 1 ϕ ( x i ) − ∑ j = 1 n 2 ϕ ( y j ) ∣ ∣ MMD^2 (X,Y) = || \sum_{i=1}^{n_1} \phi(x_i) - \sum_{j=1}^{n_2} \phi(y_j) || MMD2(X,Y)=i=1n1ϕ(xi)j=1n2ϕ(yj)Principal AngleA-distanceHilbert-Schimidt Independence CriterionWasserstein Distance 该距离在一个度量空间 ( M , ρ ) (M, \rho) (M,ρ)上定义,其中 ρ \rho ρ表示集合M中两个实例 x x x y y y的距离函数,比如欧几里得距离。两个概率分布P和Q之间的p-th Wasserstein distance可以被定义为 W p ( P , Q ) = ( i n f μ ∈ Γ ( P , Q ) ∫ ρ ( x , y ) p d μ ( x , y ) ) 1 / p W_p(P,Q) = \left( inf_{\mu \in \Gamma(P,Q) } \int \rho(x,y)^p d \mu(x,y) \right) ^{1/p} Wp(P,Q)=(infμΓ(P,Q)ρ(x,y)pdμ(x,y))1/p 其中 Γ \Gamma Γ是集合 M × M M\times M M×M内所有的以P和Q为边缘分布的联合分布。
    深度迁移学习

    深度学习可以直接对原始数据进行学习,对比非深度方法有两个优势:自动化地提取更具表现力的特征,满足了实际应用中的端到端(end-to-end)需求。

    finetune

    论文对深度迁移学习有着很高的指导意义:

    深度迁移网络中加入fine-tune,效果提升比较大,可能比原网络效果还好Fine-tune可以比较好地客服数据之间的差异性深度迁移网络比随机初始化权重效果好网络层数的迁移可以加速网络的学习和优化
    深度自适应网络

    在实际应用中,训练数据和测试数据分布不同的情况有很多。但是finetune假设训练数据和测试数据服从相同的数据分布。

    Processed: 0.012, SQL: 8