Assignment 2: Exploratory Data Analysis

Assignment 2: Exploratory Data Analysis

在此作业中,您将识别出感兴趣的数据集并进行探索性分析,以更好地理解数据的形状和结构,调查最初的问题以及发展初步的见解和假设。 您的最终提交将采用报告的形式,该报告由带注释和/或带字幕的可视化组成,这些可视化传达了在分析过程中获得的关键见解。

一、Data Selection

此数据集包含由NOAA每日全球历史气候学网络提供的2017年美国每日天气预报。 该数据已被转换:一些仅具有稀疏测量值的气象站已被滤除,有关每一列的说明,如下:

列名 说明
station 气象站名称
state 州名简称
latitude 纬度
longitude 经度
elevation 海拔
date 监测日期
TMIN 最低温度(F)
TMAX 最高温度(F)
TAVG 平均温度(F)
AWND 日平均风速(英里/小时)
WDF5 最快5秒风向(度)
WSF5 最快的5秒风速(英里/小时)
SNOW 降雪量(英寸)
SNWD 雪深(英寸)
PRCP 降水量(英寸)

1.1数据质量问题

首先先简单观察weather.csv中各列的内容,观察到以下问题,并寻求了对应解答:

  1. latitude取值均为正和longitude取值均为负。
    答:对纬度,数据选择赤道作为0点,北半球维度为正,南半球纬度为负;对经度,数据选择本初子午线作为0点,往东经为正,往西经为负。
  2. 时间数据范围为2017.01.01~2017.09.21,不满3个季度,且9月份不满30天。且由于各月各季度天数并非完全相等,故根据季度或月份使用总和来统计数据是不合理的,在可视化降雨量降雪量随着时间的变化时,最好采用平均值等与天数无关的数据来反应。
  3. 观察到TMIN、TMAX、TAVG列中存在很多空值,可能是气象站该天出现故障没有测量或是数据丢失导致。
  4. 观察到只有部分气象站有AWND、WDF5、WSF5信息,且只有有AWND的部分气象站有WDF5、WSF5信息。
  5. 大部分气象站有SNWD和PRCP的信息,少数有SNOW的信息。

对以上某列中值为NULL的信息,采取简单忽略的办法,只利用该列中存在的信息进行可视化和数据挖掘。

1.2要调查的初始问题

  1. 降雨量和经纬度有什么关系
  2. 降雪量和经纬度有什么关系
  3. 风速与下雨下雪有什么关系

二、Exploratory Visual Analysis

下面选择工具tableau对数据集进行探索性分析

2.1 数据集变量及分布

2.1.1 气象站数据

首先按照经纬度将气象站分布在地图上显示出来,可以看出气象站主要分布在美国的东西部,中部分布较少:
在这里插入图片描述
将鼠标移动到某一气象站点的上方,可以查看该气象站的经纬度。
在这里插入图片描述
将气象站按州进行总数的统计,并将其可视化在地图上如下:
在这里插入图片描述
可以清晰地看到,拥有气象站数量最多的州为犹他州,且由于东部各州面积较小,故虽然东部气象站数量比中部多,但平均到每个州的气象站数量较少。
选择美国主体国土进行分析,将气象站位置显示在卫星云图上如下:
在这里插入图片描述

在网上查询相关地理知识了解到美国西部地区为山区,中部较为干旱,东部适宜生存,且经济发达。这样可以一定程度上解释东西部气象站较多的原因:东部经济发达,人们对天气预测的需求大,精准性要求高,故需要分布较密的气象站保证人们的生产生活;西部地区为山区,人口密度小,生态好,海拔落差大,气温等数据在较短距离内能发生较大变化,故需要更多的气象站来保证监测的准确度。
统计每日收集到的气象站数据数量:
在这里插入图片描述
可以看到2017年9月18日~21日收集到的气象站数据数量有显著的减少,其他时间收集到的气象站数据数量基本持平,将纵轴范围缩小至1500 ~ 1675可以看到其他时间收集到的气象站数据数量也并非持平,存在一定的波动,这是一个数据质量问题:
在这里插入图片描述

2.1.2 温度数据

分别使用TMIN、TMAX和TAVG数据绘制boxplot图,观察其分布,并查看是否存在异常值:
TMIN:

在这里插入图片描述
有一个离群值-147.8℉=-99.8888889℃
该温度非常低,属于极端天气
将其可视化在地图上,可以看到该气象站位于美国的阿拉斯加州:
在这里插入图片描述
将该气象站全年的TMIN、TMAX和TAVG随时间的变化表示在折线图上:
在这里插入图片描述
可以看到9月11日这天数据与其他值存在明显的偏离,考虑到该数据应为错误数据,故将其清洗掉,用剩余数据进行后续处理。

绘制全年平均温度与经纬度之间的关系图:
在这里插入图片描述
可以看到,随着纬度的升高,气温逐渐降低,且西部的山区部分气温要普遍低于同纬度的其他地区。

2.1.3风数据

将年平均风速数据可视化在地图上如下:
在这里插入图片描述
可以看到其中有几个气象站的记录的风速非常高,选择年平均风速最高的senorita Divide #2气象站的风速信息进行分析,其平均风速随时间的变化如下:
在这里插入图片描述
可以看出该气象站全年大部分日期的平均风速维持在70~100英里/小时之间,只有小部分时间的风速在该范围之外。
将其按月平均风速来绘制,可以看出从一月至三月月平均风速呈上升趋势,3月达到峰值,之后3月至五月呈下降趋势,且1月的月平均风速最低。
在这里插入图片描述
选取VERO BEACH INTL AP站,可视化其最快5s风的月平均风向与风速之间的关系图如下:
在这里插入图片描述
可以看出1~ 2月最快风速较低且主要为西南风,3~9月最快风速较高,且主要为东南风。根据地理知识,可以得知,该地域为季风气候,风向、温度和降雨量均随时间有较明显的变化。

2.1.4 降雨降雪数据

首先先将降雪量可视化在地图上,颜色越深表示总降雪量越多,可视化图如下:
在这里插入图片描述
可以看到降雪量在趋势上随纬度的升高而增加,东海岸的降雪多于西海岸,山区降雪多于同地区其他区域的降雪,用点的大小表示积雪的深度,将降雪量和积雪量可视化在同一张地图上如下:
在这里插入图片描述
可以看到,通常情况下,平均积雪量随降雪量的增加而增加,但在阿拉斯加州地区,虽然降雪量不高,但是积雪量却处于较高水平,这是由于阿拉斯加州地处高纬度地区,年平均温度较低原因,降雪在低温地区不易融化,很容易堆积起来形成积雪。
同样,将年总降雨量可视化在地图上如下:
在这里插入图片描述
对照网上查找的美国气候类型分布图进行分析:

在这里插入图片描述
可以看到,在东部地区的温带阔叶林气候、亚热带常绿阔叶林气候、温带海洋性气候和高原山地气候范围内,降雨丰沛,在
亚热带沙漠和草原气候、温带草原气候及温带沙漠气候范围内降雨较少,这与各气候的定义相符。
考虑到降雨降雪应有较明显的年份特征,选择降雪量最多的MONT JOLI A气象站的降雨降雪数据进行分析:
在这里插入图片描述
可以看到三月之前,该气象站所处地区降雨降雪丰沛,且降雨降雪变化趋势大致相同,但在4月及之后的时间中,4月5月降雨量依然处于较高水平,但降雪量却下降至很低,考虑大这是由于随着时间推移,太阳直射点逐渐南移,气温升高,不再能够达到降雪的温度条件,降水多以雨水的形式进行。

2.2 初始问题解答

经过上面对数据的分析和可视化,提出的3个初始问题已经得到了较为全面和可信的解答。

三、总结与体会

在本次实验中,我通过使用tableau工具对weather.csv数据文件进行可视化,初步了解和掌握了tableau的使用,并对数据可视化有了更深层次的认识,为今后的可视化学习和实践打下基础。

猜你喜欢

转载自blog.csdn.net/alicemh/article/details/109135468