类别特征编码

    科技2022-07-11  81

    https://blog.csdn.net/weixin_39671140/article/details/84801409 https://blog.csdn.net/weixin_42585595/article/details/88320997

    使用的函数 :https://blog.csdn.net/jin_tmac/article/details/80611676

    如何解决 target encoding 的 target leakage :https://zhuanlan.zhihu.com/p/136174936 target statistics 特征选择补充 :https://blog.csdn.net/weixin_37861936/article/details/103601163

    2.2.1对于类别取值比较多的情况下,使用独热编码注意以下问题: (1)使用稀疏 向量来节省空间。独热编码下,特征向量只有某一维取值1,其他位置取值为0;这样可以有效节省空间,并且现在大部分算法均接受稀疏向量形式的输入

    (2)配合特征选择来降低维度。高维度特征会带来几方面问题:一是K邻近算法中,高维度空间亮点之间的距离很难得到有效衡量;二是在逻辑回归 模型中,参数的数量会随着维度的增高而增加,容易引起过拟合;三是通常只有部分维度对分类、预测有帮助,因此可以考虑配合特征选择降低维度

    Processed: 0.028, SQL: 8