Python爬虫 -- 武汉市近年来空气质量数据

本次是通过Python爬虫来获取武汉市近年来空气质量数据
我使用的网站是:http://www.tianqihoubao.com

1. 开始

首先导入所需要的库

import time, requests
import pandas as pd
from lxml import etree

接下来就是爬虫的代码了

url = 'http://www.tianqihoubao.com/aqi/wuhan.html'  #找到关于武汉的页面

headers = {
    'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36", }

response = requests.get(url, headers=headers)
html = response.text
response = etree.HTML(html)

url_list = response.xpath('//div[@class="box p"]//a/@href')。  #使用xpath进行解析
for url in url_list:
    url = 'http://www.tianqihoubao.com' + url

    data = pd.read_html(url, header=0, encoding='gbk')[0]
    print(data)
    time.sleep(1)
    data.to_csv("Wuhan Air Quality.csv", mode='a', header=False)       #把爬取的数据存入csv格式

下图展示了部分数据:
在这里插入图片描述

完成了数据爬虫后,我们还可以对数据进行可视化,可以参考我的另一篇文章:
利用Python - Matplotlib 绘制箱线图

猜你喜欢

转载自blog.csdn.net/werthnmkg/article/details/105928015
今日推荐