本文是参考B站台大李宏毅ML教学视频(https://www.bilibili.com/video/BV1JE411g7XF?p=1)学习后的记录。
output a scalar 输出标量
Step1 find a model: Model:x feature, w weight, b bias.
Step 2 godness of function-Find loss fuction :
Step 3 pick the best function : Gradient Descent (梯度下降法) :For finding the best function——star f。 注:只要loss func对它的参数是可微分的就可以用,不需要一定是线性方程 步骤: 1,Pick an initial value (先算一个参数 w): 2, 3, where is learning rate. 决定参数更新幅度,该值越大学习效率越高。
4,Continue this step until finding w , Until gradient(梯度) is equal to zero.(Linear function 中局部最优解就是全局最优解)。
针对多参数问题:和单个参数处理方式一样。 For two paraments:此时,局部最优解不一定是全局最优解。
使用高次泰勒展开可以提高training data的准确性,但不保证可以降低testing data的误差率,即存在过拟合overfitting。
Regularization (正则化): 修改loss 函数, 为
其中, 是常数,需要手调(自定义)。 其中, 参数w越小,曲线越平滑,即函数f对输入的变化越不敏感,即, 因此,为了使函数f不容易受输入值变化的影响,我们希望该函数变得更平滑,即使w更小,为了使w在满足L函数尽可能小的前提下尽可能的变小,我们就需要使参数 尽可能大,这样就可以使曲线变得平滑。 实测如下: 但testing 为何会先小后大? 答:这是因为曲线越平滑,函数越不敏感,所以当函数过于平滑,即对输入的变化过于迟钝时,自然就会使testing 结果不好。 综上考虑testing与training,结果为 training=4.1,testing=11.1.