Python爬虫入门教程一:环境准备

环境

python:3.7.4

python库:requests-html(该库集成了requests和html解析的相关库,还加入了js渲染)

               requests-html教程: https://www.jianshu.com/p/72a1f57b333a

               requests-html官方文档: https://cncert.github.io/requests-html-doc-cn/

IDE:pycharm2019.3版本(社区版也可以,可能跟我的教程图片有出入)

浏览器:Chrome最新版

抓包工具:Fiddler最新版

教程

注:第一篇教程主要是了解一下需要哪些环境,环境方面的知识会比较啰嗦一点

一、开发工具准备

首先pycharm创建一个项目

接着创建一个python文件名字为Crawler.py

下载需要的requests-html库,pycharm选择左上角的 File->Settings,选择Project Interpreter(我的已经安装过了,所以会显示很多库,正常安装完python只有两个库)

先点击右上角的 "+" 下载requests-html库,下载之前先设置一下镜像源,加快下载速度

点击Manage Repositories,我这里设置了阿里和清华两个镜像源

阿里源:http://mirrors.aliyun.com/pypi/simple/
清华源:https://pypi.tuna.tsinghua.edu.cn/simple/

下面搜索并安装requests-html,点击左下角的Install Package,如果下载失败需要手动安装

二、Chrome调试工具准备

F12就可以进入chrome开发者模式

网址是 https://movie.douban.com/chart

左上角的小箭头点击然后点击页面就可以看到对应地方的html代码

Elements是页面的HTML代码

Sources是加载页面各个部分的源码

Network可以查看页面的http请求

一般常用的就是Elements和Network

chrome开发者模式详解: https://www.cnblogs.com/xiaowenshu/p/10450848.html

三、Fiddler使用说明

首先下载安装Fiddler最新版

注: 使用Fiddler抓包的时候不能使用浏览器代理,不然会抓不到包

打开Fiddler后需要设置一下才能抓HTTP包

打开Tools->Options->HTTPS

选择Decrypt HTTPS traffic时会弹出安装证书的提示框,选择yes即可

最后设置一下Fiddler的端口,不要和已有的应用冲突即可,默认是8888

设置完了需要重启Fiddler,访问浏览器的时候就可以看到左边的抓取的HTTP数据包

以上只是介绍一下以后会用到的工具,不需要特别学习,后面用到的时候自然会明白怎么用的

下一节开始学习简单的爬虫

发布了137 篇原创文章 · 获赞 19 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/wh_computers/article/details/103931768
今日推荐