深度学习《CNN架构续篇 - 学习率衰减》

    科技2022-07-11  73

    截图来自于吴恩达的深度学习视频。

    我们在参数更新的时候,存在一个步长α,这个参数代表了我们每一轮迭代在梯度方向上要进步的步伐长度,以前呢骂我们都是设置成规定值,那么有什么影响呢?首先简单不用说了,在某个梯度下降的过程中,在谷底(梯度最低值)的时候,可能出现始终徘徊到达不了最低点,甚至反而出现越来越大不收敛的情况,原因就是步长一致导致的,因此有个优化方式就是,将固定的步长α改成变化的值,怎么变呢? 如下图,在固定步长下,在最优值附近会产生剧烈抖动,可能无法达到最优解。

    1) 随着迭代次数的增长逐渐减少,使用反函数形式衰减。 a)

    b)

    c)

    2) 随着梯度的值减少,梯度越大,说明坡度越大,那就采取大一些的值,越接近谷底,坡度越缓,就越要变化为小步伐前进。(不详细讲解) 3) 梯度衰减(不详细讲解) 4) 余弦衰减(不详细讲解) 5) 多项式衰减(不详细讲解) 6) 指数衰减 a)

    使用学习率衰减后,得到的效果就是绿色线条表示,越接近最优值步长越小,越容易接近最优值:

    Processed: 0.032, SQL: 8