1、网页的访问过程

第一步：网络浏览器通过本地或者远程DNS，获取域名对应的IP地址
第二步：根据获取的IP地址与访问内容封装HTTP请求
第三步：浏览器发送HTTP请求
第四步：服务器接收信息，根据HTTP内容寻找web资源
第五步：服务器创建HTTP请求并封装
第六步：服务器将HTTP响应返回到客户端浏览器

这时并不是我们普通人看到得视角。
第七步：浏览器解析，渲染服务器返回得资源，显示给用户

如果想要深入了解网络爬虫的工作原理，我们需要详细了解HTTP请求和响应

2、HTTP

HTTP请求过程
HTTP请求
HTTP响应
HTTP方法
HTTP头

HTTP请求的一般步骤：

获取想要访问的URL的IP地址
向Web Server 请求资源
Web Server 收到请求，将响应返回给客户端

1、网络爬虫主要的操作对象

HTTP请求(Request)

上图表示的是HTTP Request的结构。其中Request Line 包含了请求的方法，如GET、POST、PUT、DELETE、HEAD、OPTIONS等所请求的资源，如/doc/test.html，以及客户端所用的HTTP协议版本(0.9、1.0、1.1等)，目前浏览器默认采用的都是HTTP1.1版本。
Request Line 之后是一些请求头，表明了请求的主句名称(Host)，请求的资源类型(Accept)，客户端的身份(User-Agent)，可用的压缩方式(Accept-Encoding)，消息体的长度(Content-Length)等。请求头后面是一个空行，用来分隔请求头和消息体。空行后面紧接着就是消息体，消息体中可以包含任何内容(文本或二进制)。
HTTP响应(Response)

上图表示的是HTTP Request的结构。可以看出Response和Request的结构是很相似的。Response中的Status Line包含了服务器所使用的HTTP版本(通常会自动与客户端保持一致)，状态码(Status Code)和状态描述，如"200 OK"，"404 Not Found"等。Status Line后面是响应头。表明了服务器的时间(Data),服务器的类型(Server),消息体的类型(Content-Type)，消息体长度(Content-Length)等。

2、HTTP请求和响应都由两部分组成

消息头(Message Header)
构成头部
消息头(Message Body)
存放web资源和想要请求的内容

3、GET和POST

HTTP的请求方法有很多，但是在爬虫方面，我们通常使用GET和POST方法。

GET和POST的误区：

误区一：POST可以比GET提交更多更长的数据？

由于使用GET方法提交数据时，数据会以&符号作为分隔符的形式，在URL后面添加需要提交的参数，有人就会说了，浏览器地址栏输入的参数是有限的，而POST不用再地址栏输入，所以POST就比GET可以提交更多的数据。难道真的是这样的么？
而实际上，URL不存在参数上限的问题，HTTP协议规范没有对URL长度进行限制。这个限制是特定的浏览器及服务器对它的限制。IE对URL长度的限制是2083字节(2K+35)。对于其他浏览器，如Netscape、FireFox等，理论上没有长度限制，其限制取决于操作系统的支持。
同时，POST是没有大小限制的，HTTP协议规范也没有进行大小限制。POST数据是没有限制的，起限制作用的是服务器的处理程序的处理能力。
总归一句话，这个限制是针对所有HTTP请求的，与GET、POST没有多少关系。

误区二：POST比GET安全？

首先，我们要承认安全的概念有很多种，要是从最基本的肉眼看到就不安全，肉眼看不到那就是安全的概念说呢，GET确实没有POST安全，毕竟小白用户确实可以看到在URL中带有的数据信息，这个你无法狡辩。那么要是往严谨了说呢，POST是不是要比GET安全呢？其实不是的。只能说由于POST方法是将数据放在消息体中，这些数据不会被浏览器存储，所以安全性更好点。

4、HTTP常用协议

不温卜火

发布了38 篇原创文章 · 获赞 41 · 访问量 9718

私信关注

快速入门网络爬虫系列 Chapter02 | 爬取数据之HTTP原理

Chapter02 | 爬取数据之HTTP原理