【爬虫实战】成都近五年的温度、空气质量变化趋势

简介

博主是电子科技大学、信息与通信工程在亚特、研三在读,硕士在成都待了三年,毕业后即将前往北京字节跳动大数据开发岗位,进入人生的另一阶段。

临近毕业,意味着即将告别人生中最后不到三个月的学生生涯。在离开天府之国之前,总想留下点什么,于是产生了本文。

正文

本文是一次爬虫实战,文章主要分析了成都近五年的温度、降雨、空气质量变化趋势。文章主要分为两个部分:

  • 温度、降雨的趋势统计
  • 空气质量的统计

一、温度、降雨量统计

降雨量和温度的统计主要来源于:历史天气查询网站
该网站收录了2011年到现在的历史天气数据

1.url分析
url:https://m.tianqi.com/lishi/chengdu/201904
从url可以看出规律:https://m.tianqi.com/lishi/ + 城市名字全拼 + 两位数的月份
基于这一点这部分数据直接采用requests请求即可
2.页面分析
下图是url: https://m.tianqi.com/lishi/chengdu/201904 返回的页面

上图中包含了2019年4月份的所有天气数据:有这个月的平均高低温统计和当前月每一天的天气数据,对于以上的数据,文章只需要一下几个:

  • 平均低温和平均高温:主要由于统计近五年长度的天气变化情况

    平均低温指的是当前月每一天的最低温平均值,对应于上图中左边一列数据的平均值,平均高温也是类似
  • 天气情况:即对应下图数据

    这部分数据用于统计成都近五年的下雨天数变化情况
    网站的页面也比较简单:
    (1)平均高低温数据

    这部分数据是以表格形式组织的,文章使用pyquery进行解析
    (2)天气数据

    只需要提取上图职工的**<a**标签中的数据即可,文章使用pyquery解析数据

二、空气质量统计

空气质量(AQI)数据;来源于网站PM2.5历史数据
网站值收录了2014年到现在的历史数据
1.url分析:
https://www.aqistudy.cn/historydata/daydata.php?city=成都&month=201903
改变url中的城市和month即可得到需要的数据
使用requests可以实现
2.页面分析
下图是url: https://www.aqistudy.cn/historydata/daydata.php?city=成都&month=201903 返回的页面

上图包含了当前月每一天的详细AQI数据,在本文章只需要提取AQI这一列对应的数据即可,提取到AQI,之后根据下图即可转化为对应的空气质量等级:

根据上图,本文对提取到的AQI数据划分为以下几个类别,并统计对应类别的天数:

  • 优:AQI <= 50
  • 良以上(包含良和优):AQI <= 100
  • 轻度污染以上(包含轻度污染、良和优):AQI <= 150
  • 轻度污染以下(包含中度、重度和严重污染):AQI >= 151

在提取数据前都需要对网页的源码进行分享,上图的网页源码如下:

在源码分析时发现一个问题,源码只有表头数据,表格内容数据并没有直接出现,并且没有发现有AJAX请求,进一步分析:

数据获取的关键函数是getServerData函数,但是进一步追踪下去并还是没有找到服务器返回给浏览器的json数据,之后便放弃了requests,转而使用selenium,简单来说selenium获取到的是js渲染后的页面源码,更多关于selenium的介绍请看历史文章。使用selenium获取到的页面源码如下如所示:

上图是浏览器渲染后的页面源码,本文使用pyquery进行解析获取数据,更多关于pyquery的介绍请看历史文章

代码实现和结果分析

(1)程序实现时主要分为以下几个模块

  • 获取、拼接url
  • 访问上面url,并返回页面源码
  • 页面数据解析、和数据存储
  • 数据可视化

(2)下面是成都天气数据的可视化
下图中的的横坐标都是代表月份:1到12月

上图看出:18年7月下了27天的雨,而且剩余三天:两天是阴一天是多云
另外,18年1到5月份以及9月到11月的整体下雨天数比前几年少,整体而言,18年的下雨天数明显减少

2012年全年有190天在下雨,全年一半以上都有雨。
一个很奇怪的现象:17年后下雨的天数断崖式下降!!!

每年成都的温度数据较为规律,七、八月份是一年中最热的时候:此时平均低温23摄氏度左右、平均高温32度左右


近五年的数据表明,污染主要出现在:1月、2月以及12月

上图可以看出:

  • 成都空气质量为优的天数逐渐增加
  • 良以上的空气质量天数增加
  • 轻度污染以上的天数也是增加
  • 中度、重度和严重污染的天数在减少
  • 整体而言,成都的空气质量在逐步改善

源码

扫描下方二维码,发送关键词“成都”即可获取本文的完整源码和详细程序注释
扫码关注,及时获取更多精彩内容。(博主今日头条大数据工程师)

公众号专注:互联网求职面经javapython爬虫大数据等技术、海量资料分享:公众号后台回复“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务;公众号后台回复“资料”:即可领取5T精品学习资料java面试考点java面经总结,以及几十个java、大数据项目资料很全,你想找的几乎都有

猜你喜欢

转载自blog.csdn.net/liewen_/article/details/89418066
今日推荐