Python3--爬虫基础知识和软件准备（一）

1、python版本
air@airfull:~$ python --version

Python 3.6.5 :: Anaconda, Inc.

1、什么是爬虫

模拟客户端（浏览器）发送网络请求，获取响应，按照规则提取数据的程序

照着浏览器发送一模一样的请求，获取和浏览器一模一样的数据

2、爬取的数据去哪儿了

呈现出来：展示在网页上，或者是展示在app上（百度新闻）
进行分析：从数据中寻找一些规律

3、需要的软件和环境

1、Python3
2、Anaconda

4、浏览器的请求

url

在chrome中点击检查，点到 network

url = 请求的协议（https:)+网站的域名(www.baidu.com)+资源的路径(img/)+ 参数

5、浏览器的URL地址与爬虫URL地址获取信息的不同

浏览器的URL地址对应的响应有：当前URL对应的响应+JS+CSS+图片等

其中，elements的内容与爬虫获取对应的地址的响应不同（无JS、CSS等），以实际获取的数据为准

当前URL地址对应的响应在network中找到URL地址，点击response

6、HTTP与HTTPS

HTTP：超文本传输协议，以明文的方式传输不安全，快速

HTTPS：HTTP+SSL（安全套接字层），在传输前进行加密，接收端接收后再次解密，安全，较慢

7、请求头 request headers

GET /img/baidu_85beaf5496f291521eb75ba38eacbd87.svg HTTP/1.1  #请求行，get方法、post方法
Host: www.baidu.com #域名
Connection: keep-alive #常连接，不用每次都进行三次握手、四次挥手
Pragma: no-cache #无缓存
Cache-Control: no-cache
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/67.0.3396.99 Safari/537.36 #用户代理
Accept: image/webp,image/apng,image/*,*/*;q=0.8
Referer: https://www.baidu.com/
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: BIDUPSID=074F651E45385005E6287E2F5D838943; BAIDUID=EEE11FBD38DB6F7C3A323B33D85A061A:FG=1; PSTM=1530489540; BD_UPN=12314353; BDUSS=BPOERSU2RoMnFJY25UOUR3Wkgzc3JyYzg1ek5NYmlSMzczVkRiZHQyNzFQR0ZiQVFBQUFBJCQAAAAAAAAAAAEAAADdOHc7yP2437TzyqbQ1gAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPWvOVv1rzlbT1; ispeed_lsm=0; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; locale=zh; H_PS_645EC=26aeypihHuPLixmHYzN8K0ygpN4wY1GBDMMD2kJZv%2FPv%2FjCxqjmZaCKZAhfLr8FlbGHv; BD_HOME=1; H_PS_PSSID=1445_21115_22073; sugstore=0 #缓存

对方服务器通过user-agent识别当前请求对方资源的是什么浏览器或者是个爬虫
cookies：用来存储用户信息的，每次请求会被携带上发送给对方的浏览器
- 要获取登陆后才能访问的页面
- 对方的服务器会通过cookies判断我们是不是一个爬虫

8、请求体

get方法没有请求体，get把数据放到了请求体中
post方法才有请求体，用以携带大量数据，常用于用户登录注册，传输大文本

Python3--爬虫基础知识和软件准备（一）

猜你喜欢