爬虫 http协议和Chrome抓包工具

什么是http和https协议

  1. HTTP协议:全称是 HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80
  2. HTTPS协议:是HTTP的加密版本,在HTTP下加入SSL层,服务器端口号是403

在浏览器中发送一个http请求的过程

  1. 当用户在浏览器地址栏中输入一个URL并按回车键之后,浏览器会向http服务器发送http请求。http请求主要分为“get”和“post”两种方法。
  2. 当我们在浏览器中输入URL http://www.baidu.com的时候,浏览器发送一个request请求去获取http://www.baidu.com的html文件,服务器把response文件对象发送回给浏览器。
  3. 浏览器分析response中的html,发现其中引用了许多其他文件,比如images文件,CSS文件,JS文件,浏览器会自动再次发送Request去获取图片,CSS文件或着者JS文件。
  4. 当所有文件都下载成功后,网页会根据html语法结构,完整的显示出来。

URL解析

URL详解:URL是Uniform Resource Locator的缩写,统一资源定位符。
一个URL有以下几部分构成:

scheme://host:port/path/?query-string=xxx#anchor

  • scheme:代表的是访问的协议,一般为http或者https以及ftp等。
  • host:主机名,域名,比如www.baidu.com
  • port:端口号。当你访问一个网络的时候,浏览器默认使用80端口。
  • path:查找路径。比如:https://item.jd.com/40468351063.html,后面的40468351063.html就是path
  • query-string:查询字符串,https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=python&rsv_pq=ada012bc00018917&rsv_t=2637WdXSzepoAL7f7r0vjB58CANn8ZHzUiloyQQrE%2Bf3FlZeufHmXuo2vNw&rqlang=cn&rsv_enter=1&rsv_sug3=7&rsv_sug1=7&rsv_sug7=101&rsv_sug2=0&inputT=2136&rsv_sug4=3071&rsv_sug=1 这里的wd=python就是查询字符串
  • anchor:锚点,后台一般不用管,前端用来做页面定位的
    在浏览器中请求一个url,浏览器会对这个url进行一个编码,除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码

常用的请求方法

  1. get:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用get请求。
  2. post:向服务器发送数据(登录)、上传数据等,会对服务器资源产生影响的时候会使用post请求。
    以上是网站开发中常用的两种方法。并且一般情况下会遵循使用的原则。但是有的网站和服务器为了反爬虫机制,也经常会不按常理出牌,有可能一个应该使用get方法的请求就一定要改成post请求,这个要具体情况具体对待。

如下图限定请求方式为:POST
在这里插入图片描述

请求常见参数

在http协议中,向服务器发送一个请求,数据分为三部分,第一个是数据放在URL中,第二个是数据放在body中(在post请求中),第三种就是把数据放在head中。下边介绍一下网络爬虫中经常会用到的一些请求头参数:

  1. User-Agent:浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候,服务器通过这个参数就可以知道这个请求是有那种浏览器发送的。如果我们通过爬虫发送请求,那我们的User-Agent就是python,对于那些有反爬虫机制的网站来说,可以轻易判断你这个请求是爬虫,因此我们经常设置这个值为一些浏览器的值,来伪装我们的爬虫。
  2. Referer:表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫机技术,如果不是从指定页面过来的,那么就不作相应的响应。
  3. Cookie:http协议是无状态的,也就是同一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用Cookie做标识。一般如果想要做登录后才能访问的网站,那么就要发送Cookie信息了。
    在这里插入图片描述

常见的响应状态码

分类 分类描述
1** 消息,服务器收到请求,需要请求者继续执行操作
2** 成功,操作被成功接收并处理
3** 重定向,需要进一步的操作以完成请求
4** 客户端错误,请求包含语法错误或无法完成请求
5** 服务器错误,服务器在处理请求的过程中发生了错误

具体状态码

状态码 名称 含义
100 Continue 客户端应当继续发送请求。
101 Switching Protocols 切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议,例如,切换到HTTP的新版本协议
200 OK 请求成功。一般用于GET与POST请求 //但是可能返回状态码是200,但因为User-Agent不为所要求的,则返回一个假的消息
201 Created 已创建。成功请求并创建了新的资源
202 Accepted 已接受。已经接受请求,但未处理完成,处理将异步进行
203 Non-Authoritative Information 非授权信息。请求成功。但返回的meta信息不在原始的服务器,而是一个副本
204 No Content 无内容。服务器成功处理,但未返回内容。在未更新网页的情况下,可确保浏览器继续显示当前文档
205 Reset Content 重置内容。服务器处理成功,用户终端(例如:浏览器)应重置文档视图。可通过此返回码清除浏览器的表单域
206 Partial Content 部分内容。服务器成功处理了部分GET请求
300 Multiple Choices 多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择
301 Moved Permanently 永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替
302 Found 临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI
303 See Other 查看其它地址。与301类似。使用GET和POST请求查看
304 Not Modified 未修改。所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源
305 Use Proxy 使用代理。所请求的资源必须通过代理访问
306 Unused 已经被废弃的HTTP状态码
307 Temporary Redirect 临时重定向。与302类似。使用GET请求重定向
400 Bad Request 客户端请求的语法错误,服务器无法理解
401 Unauthorized 未授权(请求中未包含身份验证信息),请求要求用户的身份认证
402 Payment Required 保留,将来使用
403 Forbidden 服务器理解请求客户端的请求,但是拒绝执行此请求
404 Not Found 服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面
405 Method Not Allowed 客户端请求中的方法被禁止
406 Not Acceptable 服务器无法根据客户端请求的内容特性完成请求
407 Proxy Authentication Required 请求要求代理的身份认证,与401类似,但请求者应当使用代理进行授权
408 Request Time-out 服务器等待客户端发送的请求时间过长,超时
409 Conflict 服务器完成客户端的PUT请求是可能返回此代码,服务器处理请求时发生了冲突
410 Gone 客户端请求的资源已经不存在。410不同于404,如果资源以前有现在被永久删除了可使用410代码,网站设计人员可通过301代码指定资源的新位置
411 Length Required 服务器无法处理客户端发送的不带Content-Length的请求信息
412 Precondition Failed 客户端请求信息的先决条件错误
413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息
414 Request-URI Too Large 请求的URI过长(URI通常为网址),服务器无法处理
415 Unsupported Media Type 服务器无法处理请求附带的媒体格式
416 Requested range not satisfiable 客户端请求的范围无效
417 Expectation Failed 服务器无法满足Expect的请求头信息
500 Internal Server Error 服务器内部错误,无法完成请求
501 Not Implemented 服务器不支持请求的功能,无法完成请求
502 Bad Gateway 充当网关或代理的服务器,从远端服务器接收到了一个无效的请求
503 Service Unavailable 由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中
504 Gateway Time-out 充当网关或代理的服务器,未及时从远端服务器获取请求
505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本,无法完成处理
  1. 200:请求正常,服务器正常的返回数据
  2. 301:永久重定向,比如在访问www.jingdong.com的时候会重定向到www.jd.com
  3. 302:临时重定向。比如在访问一个需要登录的页面上的时候,而此时没登陆,那么就会重定向到登录页面
  4. 400:请求的url在服务器上找不到
  5. 403:服务器拒绝访问,权限不够
  6. 500:服务器内部错误。可能是服务器出现bug了

Chrome抓包工具

网页右键检查
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
本文部分信息是转载,可以当做笔记看看

猜你喜欢

转载自blog.csdn.net/Pang_ling/article/details/105419614