第十六节 pandas数据特征的分析探索

import pandas as pd
pd.options.display.max_rows = 10  # 设置显示行数

df1 = pd.read_csv(r'E:\anacondatest\PythonData\PM25\Beijing_2009_HourlyPM25_created20140709.csv', encoding='gbk')

# 数值变量的基本描述
df1.describe(include='all')  # include希望分析哪些变量,如果指定多列,放入一个列表中

# 分类变量的频数统计
pd.value_counts(df1.类型, sort=False)
df1.总分.value_counts(bins=10)  # 对总分进行分段统计

# 交叉表/数据透视表
df1.pivot_table(index=['所在省份', '主管部门'], columns='类型', values='总分', aggfunc=sum)

# 常用的假设检验方法
'''
单样本t检验
两独立样本t检验
配对t检验
单因素方差分析
卡方检验
相关分析
回归分析
非参数以检验方法
'''

猜你喜欢

转载自www.cnblogs.com/kogmaw/p/12563509.html