梯度下降
求θ1, θ2使损失函数最小。梯度下降方向:沿着等高线的法线方向。
梯度下降要点
1. 调整你的学习率
使损失函数越来越小Adaptive Learning Rates
2.Adaptive Learning Rates
2.1 Adagrad
等价于 因为:
(所有导数的平方的均值,再开根号)
造成反差的效果
2.2 Stochastic Gradient Descent
一次只使用一个样本进行梯度下降更快
3 Feature Scaling
让不同的特征属性投影到相同的范围内(均一化)均一化之后,梯度下降w的选取要容易很多
梯度下降推导
泰勒展开式给定一个初始位置和范围,就能找到这个范围内的最小值
局限
梯度下降很可能只是局部最优。