Andrew Ng——coursera——学习笔记(一)

科技2024-05-28 71

代价函数：有时候也称平方误差函数和平方误差代价函数

下图三个点具有相同的损失函数值（J相同）梯度下降需要同步更新两个seta值如果α（学习率太小）则需要很多步才能达到全局最低点：如果α（学习率太大）则会导致无法收敛或者甚至发散：如果起始点就是局部最低点那么seta就不会更新：后面还将接触到正规方程来求解出代价函数的最小值（但相比于正规方程，梯度下降适用于更大的数据集）

如果有多个特征：多元线性回归：特征缩放：原因是梯度下降与特征缩放比没有它时收敛得快得多。方法：标准化也是特征缩放的另外一种方式。它把数据归一到均值为0，方差为1的分布中。

标准化消除分布产生的度量偏差，转换为标准正态分布：归一化归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内，仅由变量的极值决定 coursera上采用的是均值归一化来进行特征缩放：学习率学习率过大可能导致损失函数忽高忽低：正规方程：直接通过特征矩阵进行矩阵运算来得出使损失函数最小的seta值：梯度下降和正规方程：上面的n（特征变量）一般小于10000时候用正规方程来求损失函数的最小值。

奇异矩阵首先，看这个矩阵是不是方阵（即行数和列数相等的矩阵，若行数和列数不相等，那就谈不上奇异矩阵和非奇异矩阵）。然后，再看此矩阵的行列式**|A|是否等于0**，若等于0，称矩阵A为奇异矩阵；若不等于0，称矩阵A为非奇异矩阵。同时，由|A|≠0可知矩阵A可逆，这样可以得出另外一个重要结论:可逆矩阵就是非奇异矩阵，非奇异矩阵也是可逆矩阵。如果A为奇异矩阵，则AX=0有无穷解，AX=b有无穷解或者无解。如果A为非奇异矩阵，则AX=0有且只有唯一零解，AX=b有唯一解

退化矩阵退化阵需要看上下文，「退化」一词一般来说指的是从一般情况变成了特殊情况，比如如果一般的情况下一个矩阵是满秩的（例如一个随机矩阵），在某种特殊情况下矩阵某些行列变成了线性相关，于是就不满秩了，那么就称为「退化」；又比如，单位阵是一种特殊的正交矩阵，在特定上下文中也可以称单位阵为「退化」的正交阵。等等。

什么情况会导致特征矩阵出现不可逆 1：包含了多余的特征。 2：数据集<=特征值的数量

Processed: 0.010, SQL: 8