python selenium 新冠数据分析[ 解封了 ]

前言

selenium 是模拟人的操作进行爬虫的,比较好上手,本次用的是 selenium +火狐驱动,应该注意selenium、火狐、火狐驱动的版本问题,最好的办法是都用最新的,库安装用pip方法,火狐驱动下载地址:https://github.com/mozilla/geckodriver/releases

注意结合自己电脑版本安装,这里说一下我是64位的,但是最后用的geckodriver-v0.32.0-win32才成功,原因不知。安装好后将驱动解压,放在py同目录下。在运行过程中如果发现问题,搜索解决(废话)我遇到的问题是找不到浏览器、找不到驱动,最终都解决了。
本文章参考了CSDN前辈们的代码。

pip install selenium 

目的及知识点

本次脚本的效果是实现自动爬取卫生健康委员会第一页至第九页所有链接中的疫情数据,想要获取的内容是大陆、香港、台湾2022年4月至11月的累计确诊人数、累计死亡人数。目的是为了计算死亡率的变化情况。
主要用到的知识点是:

  1. 通过 selenium 拉起网页、用browser.find_element、browser.find_elements方法查找链接和文本
  2. 通过正则表达式筛选对应文字
  3. 导出csv

code

初学者推荐用 jupyter notebook,方便代码调试

 

猜你喜欢

转载自blog.csdn.net/weixin_42984235/article/details/128144836
今日推荐