Pandas的数据统计函数

科技2024-04-04 108

fpath = "datas/beijing_tianqi/beijing_tianqi_2018.csv" df = pd.read_csv(fpath) # print(df.head(3)) df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype('int32') df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype('int32') # print(df.head(3)) # 1.汇总类统计 print(df.describe()) # 查看单个Series的数据 print(df["bWendu"].mean()) print(df["bWendu"].max()) print(df["bWendu"].min()) # 2.唯一去重和按值计数 # 唯一性去重(一般不用于数值列，而是枚举、分类列) print(df["fengxiang"].unique()) print(df["tianqi"].unique()) print(df["fengli"].unique()) # 按值计数 print(df["fengxiang"].value_counts()) print(df["tianqi"].value_counts()) print(df["fengli"].value_counts()) # 相关系数和协方差（ # 1.协方差:衡量同向反向程度，如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度 # 越高;如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。 # 2.相关系数:衡量相似度程度，当他们的相关系数为1时，说明两个变量变化时的正向相似度最 # 大，当相关系数为–1时，说明两个变量变化的反向相似度最大） # 协方差矩阵 print(df.cov()) # 相关系数矩阵 print(df.corr()) # 单独查看空气质量和最高温度的相关系数 print(df['aqi'].corr(df['bWendu'])) print(df['aqi'].corr(df['yWendu'])) # 空气质量和温差的相关系数 print(df['aqi'].corr(df['bWendu']-df['yWendu']))

Processed: 0.048, SQL: 9