爬虫-HTTP、HTTPS

1.http和https


发送请求,获取响应的过程中 就是发送http或https的请求,获取http或https的响应

2 http和https的概念

  • HTTP
    • 超文本传输协议
    • 默认端口号:80
  • HTTPS
    • HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协议
    • 默认端口号:443

HTTPS比HTTP更安全,但是性能更低

HTTP: 是互联网上应用最为广泛的一种网络协议,所有的www文件都必须遵守这个规则。

    HTTP是一个客户端和服务端请求和应答的标准。客户端是终端用户,服务器是网站,通过使用web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。在应答的服务器上存储着一些资源(HTML文件和图像),服务器收到请求后返回一个状态行( HTTP/1.1 200 OK)和响应信息(消息体可能是请求的文件 错误信息 或者一些其他信息)。HTTP使用TCP而不是UDP的原因在于打开一个网页必须传送很多数据,而TCP协议提供传输控制,按顺序组织数据和错误纠正。

3 浏览器发送HTTP请求的过程

http请求过程:


        1.浏览器先向地址栏中的url发起请求,并获取响应

        2.在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他请求,并获取相应的响应

        3.浏览器每获取一个响应就对应战术的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应

        4.从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改 这个过程叫做浏览器的渲染

注意:

    怕长只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等),浏览器渲染出的

4 HTTP请求的形式


5 HTTP常见请求头

    1.Host(主机和端口号)

    2.Connection(链接类型)

Keep-Alive功能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,Keep-Alive功能避免了建立或者重新建立连接。

    3.Upgrade-lnsecure-Requests(升级为HTTPS请求)

    4.User-Agent(浏览器名称)

    5.Accept(传输文件类型)

    6.Refer(页面跳转处)

    7.Acccept(传输文件类型)

    8.Cookie(Cookie)

    9.x-requested-with :XMLHttpRequest(表示该请求是Ajax异步请求)

6 HTTP重要的响应头

  1. Set-Cookie (对方服务器设置cookie到用户浏览器的缓存)

7 响应状态码(status code)

常见的状态码:

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:找不到该页面
  • 500:服务器内部错误
  • 503:服务不可用,一般是被反爬

猜你喜欢

转载自blog.csdn.net/qq_29286967/article/details/80993535
今日推荐