知道了各个特征的一些基本统计量之后,先查找出数据中的对象特征和数值特征,再查看缺失数据的多少:
然后用一般的平均数来填充缺失值:
发现都已经填充完毕。
再用随机森林模型填补就业年限数字:
之后再对部分特征进行合并,以及对grade和subGrade进行手动编码:
利用最原始的数据来进行检验:
可以得到一个最初的结果,当然后续还要进行一系列优化。
以下是成绩截图: