李宏毅机器学习笔记2:Gradient Descent

    科技2025-08-26  15

    梯度下降

    求θ1, θ2使损失函数最小。梯度下降方向:沿着等高线的法线方向。

    梯度下降要点

    1. 调整你的学习率

    使损失函数越来越小Adaptive Learning Rates

    2.Adaptive Learning Rates

    2.1 Adagrad

    等价于 因为:

    (所有导数的平方的均值,再开根号)

    造成反差的效果

    2.2 Stochastic Gradient Descent

    一次只使用一个样本进行梯度下降更快

    3 Feature Scaling

    让不同的特征属性投影到相同的范围内(均一化)均一化之后,梯度下降w的选取要容易很多

    梯度下降推导

    泰勒展开式给定一个初始位置和范围,就能找到这个范围内的最小值

    局限

    梯度下降很可能只是局部最优。

    Processed: 0.016, SQL: 8