机器学习七:Deep Learning深度学习2之技巧

    科技2026-04-11  4

    深度学习的工作整体流程

    New activation function新的激活函数

    Sigmoid function 1/1+e^-z 存在的问题

    Rectified Linear Unit (ReLU)线性整流函数

    假设值为下图所示,我们就可以直接忽略为0的那部分神经元,将神经网络变得简单 虽然解决了开始和结束梯度问题,你是学习效果变差

    ReLU- variant ReLU的变体

    Maxout

    Maxout是可学的激活函数,取输入神经元的最大值 ReLU是Maxout的一个特例 Maxout

    Maxout - Training

    给定一个训练数据x,我们知道哪个z是最大值

    Adaptive Learning Rate自适应学习速率

    Adagrad

    损失函数当前微分(斜率)比较大时,应尽量减小学习效率 gt是斜率,该点的斜率/分母,来表示反差,当反差越大学习速率应变小

    RMSProp:Adagrad的进阶

    在训练神经网络时,误差面会非常复杂。

    Vanilla Gradient Descent普通梯度下降法

    +Momentum后

    Adam

    过拟合问题

    Early Stopping

    Regularization正则化

    最大似然 最大似然转换为损失函数 正则化,目的就是尽可能的减少权重的影响

    Dropout

    Trainning of Dropout

    小批量梯度下降法(Mini-Batch Gradient Descent, MBGD)中,不同批量会舍弃不同的神经网络训练参数

    Processed: 0.011, SQL: 9