类别特征编码

科技2022-07-11 194

https://blog.csdn.net/weixin_39671140/article/details/84801409 https://blog.csdn.net/weixin_42585595/article/details/88320997

使用的函数：https://blog.csdn.net/jin_tmac/article/details/80611676

如何解决 target encoding 的 target leakage ：https://zhuanlan.zhihu.com/p/136174936 target statistics 特征选择补充：https://blog.csdn.net/weixin_37861936/article/details/103601163

2.2.1对于类别取值比较多的情况下，使用独热编码注意以下问题：（1）使用稀疏向量来节省空间。独热编码下，特征向量只有某一维取值1，其他位置取值为0；这样可以有效节省空间，并且现在大部分算法均接受稀疏向量形式的输入

（2）配合特征选择来降低维度。高维度特征会带来几方面问题：一是K邻近算法中，高维度空间亮点之间的距离很难得到有效衡量；二是在逻辑回归模型中，参数的数量会随着维度的增高而增加，容易引起过拟合；三是通常只有部分维度对分类、预测有帮助，因此可以考虑配合特征选择降低维度

Processed: 0.009, SQL: 12