提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
提示: 多元线性回归;LabelEncoder; OneHotEncoder
提示:以下是本篇文章正文内容,下面案例可供参考
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
将类别型变量进行One-Hot 编码过程中代码出现问题,进行如上修改即可以运行,参考链接:添加链接描述
代码如下(示例):
参考链接如下: 添加链接描述 解释: LabelEncoer因为过多的考虑了类别不同赋予不同的值,将原始类别变量引入数值大小的比较,所以可考虑OneHotEncoder,并且实际操作中需要先将变脸转为Label后再转为OneHot 添加链接描述 解释: 类比两者的差异,着重讲述OneHot, 理解enc.n_values_,enc.feature_indices_,通过理解enc.feature_indices_,可以知道onehot也存在问题,使得数据变得比较稀疏。
添加链接描述 解释: 了解什么是虚拟变量陷阱,对虚拟变量的解释可以看PPT添加链接描述,对于这个案例来说,存在所谓的虚拟变量陷阱。意思就是:其实state只有3种取值,理论上2位二进制就可以表示,而这里用100,010,001三种表示。其实若把第一位统一去掉,变为00,10,01也是可以区分的。所以这里需要做一个处理: 躲避虚拟变量陷阱,把第一列去掉了 X = X[: , 1:]
该处使用的url网络请求的数据。
