网络爬虫基础知识(Python实现)

浏览器的请求

url=请求协议(http/https)+网站域名+资源路径+参数

http:超文本传输协议(以明文的形式进行传输),传输效率高,但不安全。

 https:由http+ssl(安全套接子层)组成;传输之前数据先加密,之后解密获取内容,传输效率低但安全。

HTTP协议之请求

1请求行

2.请求头(user-Agent:用户代理【对方服务器通过user-Agent知道当前请求资源的是神么网站】)

3.请求体(get 请求没有请求体,post有;get 请求把数据放在url地址中)

post请求常用于登入,注册以及传输大文本时

HTTP协议之响应

1.响应头(set cookie:对方服务通过该字段设置cookie的值到本地)

2.响应体(url地址对应的响应内容)

网络爬虫的逻辑

1.确定起始url

2.发送请求获取响应

3.提取数据

4.保存

5构造下一个url 地址,循环2-5步。

发送get post 请求获取响应

猜你喜欢

转载自www.cnblogs.com/zyt-bg/p/9325757.html