机器学习 03 Moultiple Linear Regression

    科技2025-11-19  5

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

    文章目录

    机器学习03 Multiple Linear Regression一、代码问题二、使用步骤1.引入库2.LabelEncoder VS OneHotEncoder 总结


    机器学习03 Multiple Linear Regression

    提示: 多元线性回归;LabelEncoder; OneHotEncoder


    提示:以下是本篇文章正文内容,下面案例可供参考

    一、代码问题

    示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

    二、使用步骤

    1.引入库

    将类别型变量进行One-Hot 编码过程中代码出现问题,进行如上修改即可以运行,参考链接:添加链接描述

    2.LabelEncoder VS OneHotEncoder

    代码如下(示例):

    参考链接如下: 添加链接描述 解释: LabelEncoer因为过多的考虑了类别不同赋予不同的值,将原始类别变量引入数值大小的比较,所以可考虑OneHotEncoder,并且实际操作中需要先将变脸转为Label后再转为OneHot 添加链接描述 解释: 类比两者的差异,着重讲述OneHot, 理解enc.n_values_,enc.feature_indices_,通过理解enc.feature_indices_,可以知道onehot也存在问题,使得数据变得比较稀疏。

    添加链接描述 解释: 了解什么是虚拟变量陷阱,对虚拟变量的解释可以看PPT添加链接描述,对于这个案例来说,存在所谓的虚拟变量陷阱。意思就是:其实state只有3种取值,理论上2位二进制就可以表示,而这里用100,010,001三种表示。其实若把第一位统一去掉,变为00,10,01也是可以区分的。所以这里需要做一个处理: 躲避虚拟变量陷阱,把第一列去掉了 X = X[: , 1:]

    该处使用的url网络请求的数据。


    总结

    Processed: 0.012, SQL: 8