网络爬虫之疫情信息爬取（2020-02-02 16:51:20）

其他 2020-02-14 17:43:31 阅读次数: 0

目录

思路分析
完整代码
结果展示

思路分析

数据爬取接口：

https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=jQuery34108366815969222032_1580640513043&_=1580640513044
接口分析：

在这里插入图片描述
name保持不变，callback直接置空，最后一个参数是时间戳，我们可以用Python的time模块生成。
数据清洗与存储的具体操作直接看代码吧！代码如下所示。

完整代码

# ！/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time:    2020/2/2 16:16
# @Author:  Martin
# @File:    wuhan.py
# @Software:PyCharm
import requests
import json
import time
import pandas as pd
# 请求的URL
url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=&_=%d'
# 伪装请求头
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',
    'referer': 'https://news.qq.com/zt2020/page/feiyan.htm?from=timeline&isappinstalled=0'
}
# 发送请求
r = requests.get(url % time.time(), headers=headers)
# 数据清洗
data = json.loads(r.text)
data = json.loads(data['data'])
lastUpdateTime = data['lastUpdateTime']
print(lastUpdateTime)
areaTree = data['areaTree']
china_info = {}
foreign_info = {}
for item in areaTree:
    if item['name'] == '中国':
        children_list = item['children']
        for it in children_list:
            it_children = it['children']
            for i in it_children:
                china_info[i['name']] = i['total']
    else:
        if item['name'] == '柬埔寨':
            temp = item['children'][0]['children'][0]
            foreign_info[temp['name']] = temp['total']
        else :
            foreign_info[item['name']] = item['total']
foreign_info['中国'] = data['chinaTotal']
# 保存数据
pd.DataFrame(china_info).to_csv('./result/china.csv', encoding='utf_8_sig')
pd.DataFrame(foreign_info).to_csv('./result/foreign.csv', encoding='utf_8_sig')

结果展示

数据最后更新时间：2020-02-02 16:51:20
在这里插入图片描述

虐猫人薛定谔i

发布了151 篇原创文章 · 获赞 236 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/Deep___Learning/article/details/104147861

网络爬虫之疫情信息爬取（2020-02-02 16:51:20）

JS-时间戳转换为日期、时分秒-如2020-02-02 20:20:20

[家里训练20_02_16]C

【线程理论篇】 -- 2019-08-16 20:51:20

2020-02-16

2020-02-20

PAT 甲级 A1061 （2019/02/09） NULL（16/20）

Python爬虫之51job招聘数据信息爬取实战

python爬虫之XPath（爬取51job招聘信息）

爬虫学习之16：爬取简书网用户动态信息（异步加载页面的爬取）

python爬取世界疫情信息到Mysql

51单片机之DS18B20

日志-2020-02-20

【网络编程】 -- 2019-08-16 20:00:55

【python实现网络爬虫（16）】JSON网易动态新闻爬取（ajax请求爬取信息过程详解，附全部源代码）

JAVA网络爬虫02-Jsoup解析爬取结果

快速入门网络爬虫系列 Chapter02 | 爬取数据之HTTP原理

02-CSS基础与进阶-day9_2018-09-12-20-16-28

爬取51job职位信息

考研日记：2020-02-16

2020/02/16，对大城市的憧憬

爬虫爬取51job python职位相关信息

python 爬虫如何通过scrapy框架简单爬取网站信息--以51job为例

pthon 爬虫使用requests爬取51job职位信息

爬虫实战：爬取前程无忧（51job）python相关职位信息

爬虫实战-使用Webmagic爬取51job的职位信息

python/utilities/[2020-02-20]

考研日记：2020-02-20

2020-02-20盘后总结

爬虫（20）：深度爬取策略（2）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)