深度学习《CNN架构续篇 - 学习率衰减》

科技2022-07-11 123

截图来自于吴恩达的深度学习视频。

我们在参数更新的时候，存在一个步长α，这个参数代表了我们每一轮迭代在梯度方向上要进步的步伐长度，以前呢骂我们都是设置成规定值，那么有什么影响呢？首先简单不用说了，在某个梯度下降的过程中，在谷底（梯度最低值）的时候，可能出现始终徘徊到达不了最低点，甚至反而出现越来越大不收敛的情况，原因就是步长一致导致的，因此有个优化方式就是，将固定的步长α改成变化的值，怎么变呢？如下图，在固定步长下，在最优值附近会产生剧烈抖动，可能无法达到最优解。

1）随着迭代次数的增长逐渐减少，使用反函数形式衰减。 a)

2）随着梯度的值减少，梯度越大，说明坡度越大，那就采取大一些的值，越接近谷底，坡度越缓，就越要变化为小步伐前进。（不详细讲解） 3）梯度衰减（不详细讲解） 4）余弦衰减（不详细讲解） 5）多项式衰减（不详细讲解） 6）指数衰减 a)

使用学习率衰减后，得到的效果就是绿色线条表示，越接近最优值步长越小，越容易接近最优值：

Processed: 0.014, SQL: 8