机器学习七：Deep Learning深度学习2之技巧

科技2026-04-11 9

深度学习的工作整体流程

假设值为下图所示，我们就可以直接忽略为0的那部分神经元，将神经网络变得简单虽然解决了开始和结束梯度问题，你是学习效果变差

Maxout是可学的激活函数，取输入神经元的最大值 ReLU是Maxout的一个特例 Maxout

给定一个训练数据x，我们知道哪个z是最大值

损失函数当前微分（斜率）比较大时，应尽量减小学习效率 gt是斜率，该点的斜率/分母，来表示反差，当反差越大学习速率应变小

在训练神经网络时，误差面会非常复杂。

最大似然最大似然转换为损失函数正则化，目的就是尽可能的减少权重的影响

小批量梯度下降法（Mini-Batch Gradient Descent, MBGD）中，不同批量会舍弃不同的神经网络训练参数

Processed: 0.013, SQL: 9