Python中国五城市六年PM2.5数据挖掘

Kaggle中国五城市六年PM2.5数据挖掘

数据来源于kaggle平台,本文对中国五城市(北京、上海、成都、广州、沈阳)六年PM2.5数据,进行分析,为了更加直观,我采用倒叙的方式,先展示成果,再展示数据预处理部分。

3. 数据可视化

3.1 PM2.5平均分布情况

在这里插入图片描述
北京空气质量最差,广州和上海空气质量最好。成都因地处四川盆地,工业污染难以被风吹散,空气质量较其它南方城市较差。

3.2 时间关系

3.2.1 各季节变化情况

在这里插入图片描述
五个城市连续六年PM2.5大小在一年四季的分布,广州和上海的空气质量比较适宜

3.2.2 逐年、季度、月、日变化趋势

在这里插入图片描述

  1. 可以看到,PM2.5总体是逐年下降的
  2. 观察每天各个时段的PM2.5分布更有意义可以看到各此视下午2点的PM2.5平均值最低

3.3 风速的关系

3.3.1 PM2.5与各城市风速关系

在这里插入图片描述
PM2.5与风速的关系,点击查看单个城市的情况。风速越大,PM2.5越低。

3.3.2 北京PM2.5与风速关系图

在这里插入图片描述
PM2.5与风速的关系,仅显示北京。刮大风总是会刮西北风。

3.3.3 除了北京外地区

在这里插入图片描述
可以看出成都的刮风是非常小的,广州次之

3.4 降水量的关系

PM2.5大小与降水量的关系(默认只显示上海)。

3.4.1 上海小时降水量

在这里插入图片描述降水量越大的时候,PM2.5越低。

可以看到,2013-9-13日的降水量特别大,上海发生了大暴雨
在这里插入图片描述

3.4.2 累计降水量

在这里插入图片描述PM2.5大小与累计降水量的关系。累计降水量越大,PM2.5越低。

3.5 温度关系

在这里插入图片描述
由于北京的散点图掩盖了其他城市,所以我们用筛选器取出了北京,可以看到,成都是比较热的,上海温差较大,沈阳最冷

3.6 相对湿度关系

在这里插入图片描述PM2.5大小与相对湿度的关系(默认不显示北京广州),当相对湿度较高时,成都、上海、沈阳数据都出现了断续,并且大致符合:相对湿度越高、PM2.5的平均值越高的分布情况

  • 原因解释:
    在这里插入图片描述

3.7 大气压强关系

在这里插入图片描述感觉没有太大关系

3.8 温度差关系

露点温度指空气在水汽含量和气bai压都不改变的条件下,冷却到饱和时的温度。

形象地说,就是空气中的水蒸气变为露珠时候的温度叫露点温度。露点温度本是个温度值,可为什么用它来表示湿度呢?这是因为,当空气中水汽已达到饱和时,气温与露点温度相同;当水汽未达到饱和时,气温一定高于露点温度。所以露点与气温的差值可以表示空气中的水汽距离饱和的程度。气温降到露点以下是水汽凝结的必要条件
在这里插入图片描述

1. Excel数据预处理

首先要对原始数据进行数据处理,主要时替换操作,Excel的vlookup函数就够了,当然也可以利用pandas中的映射关系来做,就有点大材小用了。

1.1 数据探索

数据字段
在这里插入图片描述
字段含义

  • No: row number 行号
  • year: year of data in this row 该行中数据的年份
  • month: month of data in this row 该行中数据的月份
  • day: day of data in this row 该行中数据的日期
  • hour: hour of data in this row 该行中的小时数据
  • season: season of data in this row 此行中的数据季节
  • PM: PM2.5 concentration (ug/m^3) PM2.5浓度(ug / m ^ 3)
  • DEWP: Dew Point (Celsius Degree) 露点(摄氏温度)
  • TEMP: Temperature (Celsius Degree) 温度(摄氏温度)
  • HUMI: Humidity (%) 湿度(%)
  • PRES: Pressure (hPa) 压力(hPa)
  • cbwd: Combined wind direction 组合风向
  • Iws: Cumulated wind speed (m/s) 累积风速(m / s)
  • precipitation: hourly precipitation (mm) 每小时降水量(毫米)
  • Iprec: Cumulated precipitation (mm) 累积降水量(毫米)

数据结构
在这里插入图片描述
数据展示
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1dxJtiF7-3012356376991)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\3012353015277.png)]

1.2 数据预处理

  • 季节替换
    在这里插入图片描述
  • 风向替换

在这里插入图片描述

  • PM2.5数据处理
    在这里插入图片描述
  • 时间转换

在这里插入图片描述

处理完5个EXCEL表格数据后,就要合并多个工作表,Python比较在行

2. Python合并多个工作表

# -*- coding:utf-8 -*-
# @Author : https://blog.csdn.net/qq_45176548 
# @Time : 2021/2/4 0:25
import pandas as pd
import os
os.chdir(r"E:\Python\五省PM2.5")
path = "./archive/"
dfs,index = [],0
for i in os.listdir(path):
    dfs.append(pd.read_csv(os.path.join(path,i)))
    print(f"正在合并{index+1}工作表")
    index += 1
df = pd.concat(dfs)
df.to_csv("./archive/北上广成沈五城市六年PM2.5数据汇总.csv",index=False)

推荐阅读


1.Tableau数据分析-Chapter01条形图、堆积图、直方图
2.Tableau数据分析-Chapter02数据预处理、折线图、饼图
3.Tableau数据分析-Chapter03基本表、树状图、气泡图、词云
4.Tableau数据分析-Chapter04标靶图、甘特图、瀑布图
5.Tableau数据分析-Chapter05数据集合并、符号地图
6. Tableau数据分析-Chapter06填充地图、多维地图、混合地图
7. Tableau数据分析-Chapter07多边形地图和背景地图
8. Tableau数据分析-Chapter08数据分层、数据分组、数据集


到这里就结束了,如果对你有帮助,欢迎点赞关注,你的点赞对我很重要

猜你喜欢

转载自blog.csdn.net/qq_45176548/article/details/113619239