Pandas的数据统计函数

    科技2024-04-04  97

    fpath = "datas/beijing_tianqi/beijing_tianqi_2018.csv" df = pd.read_csv(fpath) # print(df.head(3)) df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype('int32') df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype('int32') # print(df.head(3)) # 1.汇总类统计 print(df.describe()) # 查看单个Series的数据 print(df["bWendu"].mean()) print(df["bWendu"].max()) print(df["bWendu"].min()) # 2.唯一去重和按值计数 # 唯一性去重(一般不用于数值列,而是枚举、分类列) print(df["fengxiang"].unique()) print(df["tianqi"].unique()) print(df["fengli"].unique()) # 按值计数 print(df["fengxiang"].value_counts()) print(df["tianqi"].value_counts()) print(df["fengli"].value_counts()) # 相关系数和协方差( # 1.协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度 # 越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。 # 2.相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最 # 大,当相关系数为–1时,说明两个变量变化的反向相似度最大) # 协方差矩阵 print(df.cov()) # 相关系数矩阵 print(df.corr()) # 单独查看空气质量和最高温度的相关系数 print(df['aqi'].corr(df['bWendu'])) print(df['aqi'].corr(df['yWendu'])) # 空气质量和温差的相关系数 print(df['aqi'].corr(df['bWendu']-df['yWendu']))
    Processed: 0.018, SQL: 8