代价函数:有时候也称平方误差函数和平方误差代价函数
下图三个点具有相同的损失函数值(J相同) 梯度下降 需要同步更新两个seta值 如果α(学习率太小)则需要很多步才能达到全局最低点: 如果α(学习率太大)则会导致无法收敛或者甚至发散: 如果起始点就是局部最低点那么seta就不会更新: 后面还将接触到正规方程来求解出代价函数的最小值(但相比于正规方程,梯度下降适用于更大的数据集)
如果有多个特征: 多元线性回归: 特征缩放: 原因是梯度下降与特征缩放比没有它时收敛得快得多。 方法: 标准化也是特征缩放的另外一种方式。它把数据归一到均值为0,方差为1的分布中。
标准化 消除分布产生的度量偏差,转换为标准正态分布: 归一化 归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定 coursera上采用的是均值归一化来进行特征缩放: 学习率 学习率过大可能导致损失函数忽高忽低: 正规方程:直接通过特征矩阵进行矩阵运算来得出使损失函数最小的seta值: 梯度下降和正规方程: 上面的n(特征变量)一般小于10000时候用正规方程来求损失函数的最小值。
奇异矩阵 首先,看这个矩阵是不是方阵(即行数和列数相等的矩阵,若行数和列数不相等,那就谈不上奇异矩阵和非奇异矩阵)。然后,再看此矩阵的行列式**|A|是否等于0**,若等于0,称矩阵A为奇异矩阵;若不等于0,称矩阵A为非奇异矩阵。 同时,由|A|≠0可知矩阵A可逆,这样可以得出另外一个重要结论:可逆矩阵就是非奇异矩阵,非奇异矩阵也是可逆矩阵。 如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解。如果A为非奇异矩阵,则AX=0有且只有唯一零解,AX=b有唯一解
退化矩阵 退化阵需要看上下文,「退化」一词一般来说指的是从一般情况变成了特殊情况,比如如果一般的情况下一个矩阵是满秩的(例如一个随机矩阵),在某种特殊情况下矩阵某些行列变成了线性相关,于是就不满秩了,那么就称为「退化」;又比如,单位阵是一种特殊的正交矩阵,在特定上下文中也可以称单位阵为「退化」的正交阵。等等。
什么情况会导致特征矩阵出现不可逆 1:包含了多余的特征。 2:数据集<=特征值的数量