数据分析：春节禁放烟花爆竹 - 代码天地

数据分析：春节禁放烟花爆竹

其他 2019-12-09 14:34:17 阅读次数: 0

# -*- coding:utf-8 -*-

import time

import requests

import pandas as pd

from lxml import etree

class AQI(object):

"""

爬取城市AQI实时数据

"""

def __init__(self):

"""

初始化函数

:attr encoding: 编码

"""

self.encoding = None

def get_encoding(self):

"""

获取网页的编码

:return: None

"""

res = requests.get('http://datacenter.mee.gov.cn/aqiweb2/')

self.encoding = res.apparent_encoding

print('Successfully crawled encoding!')

time.sleep(2)

def crawl_aqi(self, sleep_time=3600):

"""

爬取全国具有监测点的所有城市的AQI实时数据，每小时爬取一次

:param sleep_time: 爬取间隔时间，默认3600秒

:return: None

"""

write_header = True

while 1:

res = requests.get('http://datacenter.mee.gov.cn/aqiweb2/')

parsed_text = etree.HTML(res.text)

timestamp = parsed_text.xpath('/html/body/div[3]/p/i/text()')[0].replace('年', '-'). \

replace('月', '-').replace('日', ' ').replace('时', ':00:00')

print('Successfully crawled timestamp!')

# 直接使用pandas获取和解析数据

data_res = pd.read_html('http://datacenter.mee.gov.cn/aqiweb2/', encoding=self.encoding)

data = data_res[0]

header = ['city', 'AQI', 'PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3', 'main_pollution']

data.columns = header

data['time'] = timestamp

if write_header is True:

data.to_csv('data2.csv', index=False, mode='a', header=True)

write_header = False

else:

data.to_csv('data2.csv', index=False, mode='a', header=False)

print('Successfully crawled data of {} and saved it to file!'.format(timestamp))

time.sleep(sleep_time)

if __name__ == '__main__':

aqi = AQI()

aqi.get_encoding()

aqi.crawl_aqi()

import pandas as pd

import numpy as np

data = pd.read_csv('AQI_Data.csv')

# 打印基本信息

print(data.info())

print(data.head())

# 数据清洗

data['time'] = pd.to_datetime(data['time'])

data = data[data['time'] <= pd.to_datetime('2019-02-11 23:59:59')] # 选取2月4日——2月12日的数据

data = data.replace('—', np.nan) # 打印全部数据会发现：外汇返佣中有很多'-'

for col in ['AQI', 'PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3']:

data[col] = data[col].astype(float)

print(data.info()) # 确认属性信息

print(len(data['city'].unique())) # 查看城市数量

data.to_csv('data_clean.csv', index=False) # 可以保存清洗好的数据

原文链接：https://blog.csdn.net/qq_42615032/article/details/103352478

猜你喜欢

转载自www.cnblogs.com/benming/p/12010682.html

数据分析：春节禁放烟花爆竹

过年城市被禁止燃放烟花爆竹

【新年快乐】禁止燃放烟花爆竹&那就用Python画场烟花秀吧

权威发布2018北京春节期间空气质量受烟花爆竹影响几何

今年春节北京烟花爆竹备货量下降46.7%

过年有燃放烟花爆竹禁令那我们用css写一个烟花看看吧

2021年烟花爆竹储存考试资料及烟花爆竹储存证考试

常州集中销毁烟花爆竹千余件爆竹化灰烬

2021年烟花爆竹生产单位主要负责人多少分及格及烟花爆竹生产单位主要负责人考试资料

2021年烟花爆竹产品涉药考试试卷及烟花爆竹产品涉药作业考试题库

四部门：要持续保持烟花爆竹“打非”高压态势

应急管理部等四部门联合督导烟花爆竹安全生产工作

中国抽查烟花爆竹不合格发现率达15%

小型电子声光礼花器电子烟花爆竹电路设计

2021年烟花爆竹生产单位安全生产管理人员考试试卷及烟花爆竹生产单位安全生产管理人员证考试

四川达州烟花爆竹店隔壁起火,燃气体报警器很重要

2020烟花爆竹储存作业考试题库及模拟考试答案（新训、复审）

放烟花的python程序

2018春节旅行大数据分析

2016年春节大数据分析

烟花爆竹储存作业模拟考试试题，安全生产模拟考试一点通

分享一个放烟花的特效

使用Unity粒子系统放烟花

【python】绘制春节烟花

【掘友春节迁徙小数据】简单做了一个春节迁徙数据分析地图

助力春节精准营销，火山引擎ByteHouse加速数据分析效率

生日快乐，放烟花，文字可以自定义

快过年了，用JS让你的网页放烟花吧

春节直播电商数据分析：上百万场直播，超百亿人次观看，传递出哪些信号？

抖音直播数据分析，春节期间，品牌自播如何一周卖出3000万？

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)