版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wnma3mz/article/details/79420199
Day Five——pandas操作excel
第一部分数据air_data.csv
第二部分数据air_data.csv
第三部分数据zscoredata.xls
第四部分数据zscoredata.xls
第一部分——使用describe观察数据
对应函数programmer_1
步骤:
- 读取数据文件,指定编码格式
encoding='utf-8'
- 对数据的基本描述。
data.describe(percentiles=[], include='all')
,percentiles
表示指定某某分位数 - 计算空值情况。
len(data) - explore['count']
- 提取部分特征保存至新表中
第二部分——使用pandas筛选数据
对应函数programmer_2
步骤:
- 读取数据,提取非空数据
data['SUM_YR_1'].notnull
- 多重条件筛选,得到真值
index1 = data['SUM_YR_1'] != 0
,根据多个条件,进一步筛选非空数据 - 将数据保存至新表中
第三部分——数据标准化变换
对应函数programmer_3
步骤:
- 读取数据
- 实现标准化变换,
data - data.mean(axis=0) / data.std(axis=0)
。将数据约束到-1到1之间 - 对列名重新赋值,
data.columns = ['Z' + i for i in data.columns]
- 保存数据至新表
第四部分——聚类数据
对应函数programmer_4
步骤:
- 这里读取的数据是上个函数,实施标准化变换后的数据
- 指定聚类数
k=5
,调用函数聚类from sklearn.cluster import KMeans,指定线程数(加快速度)
n_jobs=4
- 查看聚类中心和各个样本对应的类别。
kmodel.cluster_centers_
和kmodel.labels_