深度学习的工作整体流程
New activation function新的激活函数
Sigmoid function 1/1+e^-z 存在的问题
Rectified Linear Unit (ReLU)线性整流函数
假设值为下图所示,我们就可以直接忽略为0的那部分神经元,将神经网络变得简单 虽然解决了开始和结束梯度问题,你是学习效果变差
ReLU- variant ReLU的变体
Maxout
Maxout是可学的激活函数,取输入神经元的最大值 ReLU是Maxout的一个特例 Maxout
Maxout - Training
给定一个训练数据x,我们知道哪个z是最大值
Adaptive Learning Rate自适应学习速率
Adagrad
损失函数当前微分(斜率)比较大时,应尽量减小学习效率 gt是斜率,该点的斜率/分母,来表示反差,当反差越大学习速率应变小
RMSProp:Adagrad的进阶
在训练神经网络时,误差面会非常复杂。
Vanilla Gradient Descent普通梯度下降法
+Momentum后
Adam
过拟合问题
Early Stopping
Regularization正则化
最大似然 最大似然转换为损失函数 正则化,目的就是尽可能的减少权重的影响
Dropout
Trainning of Dropout
小批量梯度下降法(Mini-Batch Gradient Descent, MBGD)中,不同批量会舍弃不同的神经网络训练参数