环境

python:3.7.4

python库:requests-html(该库集成了requests和html解析的相关库，还加入了js渲染)

IDE:pycharm2019.3版本(社区版也可以，可能跟我的教程图片有出入)

浏览器:Chrome最新版

抓包工具:Fiddler最新版

教程

注：第一篇教程主要是了解一下需要哪些环境，环境方面的知识会比较啰嗦一点

首先pycharm创建一个项目

接着创建一个python文件名字为Crawler.py

下载需要的requests-html库，pycharm选择左上角的 File->Settings，选择Project Interpreter(我的已经安装过了，所以会显示很多库，正常安装完python只有两个库)

先点击右上角的 "+" 下载requests-html库，下载之前先设置一下镜像源，加快下载速度

点击Manage Repositories，我这里设置了阿里和清华两个镜像源

阿里源：http://mirrors.aliyun.com/pypi/simple/
清华源：https://pypi.tuna.tsinghua.edu.cn/simple/

下面搜索并安装requests-html，点击左下角的Install Package，如果下载失败需要手动安装

F12就可以进入chrome开发者模式

左上角的小箭头点击然后点击页面就可以看到对应地方的html代码

Elements是页面的HTML代码

Sources是加载页面各个部分的源码

Network可以查看页面的http请求

一般常用的就是Elements和Network

首先下载安装Fiddler最新版

注: 使用Fiddler抓包的时候不能使用浏览器代理，不然会抓不到包

打开Fiddler后需要设置一下才能抓HTTP包

打开Tools->Options->HTTPS

选择Decrypt HTTPS traffic时会弹出安装证书的提示框，选择yes即可

最后设置一下Fiddler的端口，不要和已有的应用冲突即可，默认是8888

设置完了需要重启Fiddler，访问浏览器的时候就可以看到左边的抓取的HTTP数据包

以上只是介绍一下以后会用到的工具，不需要特别学习，后面用到的时候自然会明白怎么用的

下一节开始学习简单的爬虫

发布了137 篇原创文章 · 获赞 19 · 访问量 1万+

私信关注