Day Five——pandas操作excel

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wnma3mz/article/details/79420199

Day Five——pandas操作excel

完整代码及数据地址

第一部分数据air_data.csv

第二部分数据air_data.csv

第三部分数据zscoredata.xls

第四部分数据zscoredata.xls

第一部分——使用describe观察数据

对应函数programmer_1

步骤:

  1. 读取数据文件,指定编码格式encoding='utf-8'
  2. 对数据的基本描述。data.describe(percentiles=[], include='all')percentiles表示指定某某分位数
  3. 计算空值情况。len(data) - explore['count']
  4. 提取部分特征保存至新表中

第二部分——使用pandas筛选数据

对应函数programmer_2

步骤:

  1. 读取数据,提取非空数据data['SUM_YR_1'].notnull
  2. 多重条件筛选,得到真值index1 = data['SUM_YR_1'] != 0,根据多个条件,进一步筛选非空数据
  3. 将数据保存至新表中

第三部分——数据标准化变换

对应函数programmer_3

步骤:

  1. 读取数据
  2. 实现标准化变换,data - data.mean(axis=0) / data.std(axis=0)。将数据约束到-1到1之间
  3. 对列名重新赋值,data.columns = ['Z' + i for i in data.columns]
  4. 保存数据至新表

第四部分——聚类数据

对应函数programmer_4

步骤:

  1. 这里读取的数据是上个函数,实施标准化变换后的数据
  2. 指定聚类数k=5,调用函数聚类from sklearn.cluster import KMeans,指定线程数(加快速度) n_jobs=4
  3. 查看聚类中心和各个样本对应的类别。kmodel.cluster_centers_kmodel.labels_

猜你喜欢

转载自blog.csdn.net/wnma3mz/article/details/79420199