R语言:数据预处理-缺失值

    科技2025-10-05  5

    数据预处理

    导入玩家的玩牌游戏数据

    加载并查看数据信息

    player <- read.csv("玩家玩牌数据.csv",F) head(player) str(player)

    给数据设置变量名

    player_col_names <- c("用户id","性别","等级","站内好友数","经验值", "积分","登录总次数","玩牌局数","赢牌局数","身上货币量") //查看变量名 colnames(player) <- player_col_names //查看前六行 head(player)

    查看缺失值

    // 利用is.na函数判断“玩牌局数”变量各值是否为缺失值 is.na(player$玩牌局数) // 统计缺失值与非缺失值的个数 table(is.na(player$玩牌局数)) //sum()和mean()函数来统计缺失值的个数和占比 // 计算缺失值个数 sum(is.na(player$玩牌局数)) // 计算缺失值占比 mean(is.na(player$玩牌局数))

    用md.pattern函数查看player的缺失值模式

    md.pattern(player)

    删除缺失值

    当缺失值占比不大时,可以采用缺失值删除的方法

    player_full <- na.omit(player)

    替换缺失值

    如果数据缺失值过大,且对数据总体有一定影响,可以采用替换的方式。

    //用0替换缺失值 player[is.na(player)] <- 0
    Processed: 0.014, SQL: 8