HTTP、TSl、HTTPS的工作原理详解

HTTP的工作原理

HTTP协议是什么?

HTTP我们称之为超文本传输协议,是分布式、协作式、超媒体信息系统的应用程序协议。HTTP 是互联网数据通信的基础,其中超文本文档包括指向用户可以轻松访问的其他资源的超链接。例如通过单击鼠标或在 Web 浏览器中输入网络地址URL或者点击浏览器的内容发起一个简单的请求响应协议,服务器收到请求后提供HTML文件和其他内容等资源或代表客户端执行其他功能,向客户端返回响应消息,响应包含有关请求的完成状态信息,并且可能还包含其消息正文中请求的内容。响应的消息内容则具有一个类似MIME的格式。

web浏览器的URL在HTTP中扮演的有事什么角色呢?

URI:又称之统一资源的标识符;是一个字符字符串,用于明确标识互联网上的特定资源。简单的来说就是身份证,用来说明人的家庭地址、姓名,以此来准确定位并查找。所以在互联网中的URL指定对资源执行或获取表示方式的,即指定其主访问机制和网络位置,以此来精确的返回web浏览器想要的资源。它的格式如下:

总结如下:
URL的组成:<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
格式说明

  • scheme :标明访问服务器以获取资源时要使用哪种协议
  • user :用户,某些方案访问资源时需要的用户名
  • password :密码,用户对应的密码,中间用:分隔
  • Host :主机,资源宿主服务器的主机名或IP地址
  • port :端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号
  • path :路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
  • params :参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
  • query :查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
  • frag :片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔

web浏览器发起的HTTP协议的请求报文、以及收到的响应报文

#请求报文格式
<method> <request-URL> <version>
<headers>
<entity-body>

#请求报文范例
GET / HTTP/1.1
Accept: */*
Accept-Encoding: gzip, deflate
Connection: keep-alive
Host: https://www.cnblogs.com/-one/
User-Agent: HTTPie/0.9.4

#响应报文格式
<version> <status> <reason-phrase>
<headers>
<entity-body>
#响应报文范例
HTTP/1.1 200 OK
Cache-Control: max-age=3, must-revalidate
Connection: keep-alive
Content-Encoding: gzip
Content-Type: text/html; charset=UTF-8
Date: Thu, 07 Nov 2019 03:44:14 GMT
Server: Tengine
Transfer-Encoding: chunked
Vary: Accept-Encoding
Vary: Accept-Encoding, Cookie

HTTP报文详解

headers:首部字段头

  1. 通用首部:请求报文和响应报文两方都会使用的首部
  2. 请求首部:从客户端向服务器端发送请求报文时使用的首部。补充了请求的附加内容、客户端信息、请求内容相关优先级等信息
  3. 响应首部:从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息
  4. 实体首部:针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的的信息
  5. 扩展首部:
通用首部:
Date: 报文的创建时间
Connection:连接状态,如keep-alive, close
Via:显示报文经过的中间节点(代理,网关)
Cache-Control:控制缓存,如缓存时长
MIME-Version:发送端使用的MIME版本
Warning:错误通知

请求首部:
Accept:通知服务器自己可接受的媒体类型
Accept-Charset: 客户端可接受的字符集
Accept-Encoding:客户端可接受编码格式,如gzip
Accept-Language:客户端可接受的语言
Client-IP: 请求的客户端IP
Host: 请求的服务器名称和端口号
Referer:跳转至当前URI的前一个URL
User-Agent:客户端代理,浏览器版本

条件式请求首部:
Expect:允许客户端列出某请求所要求的服务器行为
If-Modified-Since:自从指定的时间之后,请求的资源是否发生过修改
If-Unmodified-Since:与上面相反
If-None-Match:本地缓存中存储的文档的ETag标签是否与服务器文档的Etag不匹配
If-Match:与上面相反

安全请求首部:
Authorization:向服务器发送认证信息,如账号和密码
Cookie: 客户端向服务器发送cookie
代理请求首部:
Proxy-Authorization: 向代理服务器认证

响应首部:
信息性:
Age:从最初创建开始,响应持续时长
Server:服务器程序软件名称和版本
协商首部:某资源有多种表示方法时使用
Accept-Ranges:服务器可接受的请求范围类型
Vary:服务器查看的其它首部列表
安全响应首部:
Set-Cookie:向客户端设置cookie
WWW-Authenticate:来自服务器对客户端的质询列表

实体首部:
Allow: 列出对此资源实体可使用的请求方法
Location:告诉客户端真正的实体位于何处
Content-Encoding:对主体执行的编码
Content-Language:理解主体时最适合的语言
Content-Length: 主体的长度
Content-Location: 实体真正所处位置
Content-Type:主体的对象类型,如text

缓存相关:
ETag:实体的扩展标签
Expires:实体的过期时间
Last-Modified:最后一次修改的时间

Method:方法:标明客户端希望服务器对资源执行的动作,包括以下:

  • GET :从服务器获取一个资源(常用)
  • HEAD :只从服务器获取文档的响应首部
  • POST :向服务器输入数据,通常会再由网关程序继续处理(常用)
  • PUT :将请求的主体部分存储在服务器中,如上传文件
  • DELETE :请求删除服务器上指定的文档
  • TRACE :追踪请求到达服务器中间经过的代理服务器
  • OPTIONS :请求服务器返回对指定资源支持使用的请求方法
  • CONNECT :建立一个到由目标资源标识的服务器的隧道
  • PATCH :用于对资源应用部分修改

version:版本
目前的HTTP的版本的多为HTTP/1.1、HTTP/2.0,老版本HTTP/0.9、HTTP/1.0较为少见

reason-phrase:短语
状态码所标记的状态的简要描述

响应报文的状态码

  • 1xx:100-101 信息提示
  • 2xx:200-206 成功
  • 3xx:300-307 重定向
  • 4xx:400-415 错误类信息,客户端错误
  • 5xx:500-505 错误类信息,服务器端错误

http协议常用的状态码
200: 成功,请求数据通过响应报文的entity-body部分发送;OK
301: 请求的URL指向的资源已经被删除;但在响应报文中通过首部Location指明了资源现在所处的新位置;Moved Permanently
302: 响应报文Location指明资源临时新位置 Moved Temporarily
304: 客户端发出了条件式请求,但服务器上的资源未曾发生改变,则通过响应此响应状态码通知客户端;Not Modified
401: 需要输入账号和密码认证方能访问资源;Unauthorized
403: 请求被禁止;Forbidden
404: 服务器无法找到客户端请求的资源;Not Found
500: 服务器内部错误;Internal Server Error
502: 代理服务器从后端服务器收到了一条伪响应,如无法连接到网关;Bad Gateway
503: 服务不可用,临时服务器维护或过载,服务器无法处理请求
504: 网关超时
更为详细的状态码说明请参考:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Status

entity-body:实体
请求时附加的数据或响应时附加的数据,例如:登录网站时的用户名和密码,博客的上传文章,论坛上的发言等。

web浏览器利用HTTP访问的全过程

0、客户端将浏览器的URL地址解析成远程服务器的IP地址(DNS解析请参考上一章:https://www.cnblogs.com/-one/p/12595824.html)
1、客户端服务器建立基于socket的连接:服务器接收或拒绝连接请求
2、服务器接收请求:接收客户端请求报文中对某资源的一次请求的过程
3、处理请求:服务器对请求报文进行解析,并获取请求的资源及请求方法等相关信息,根据方法,资源,首部和可选的主体部分对请求进行处理
常用请求Method: GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS
4、访问资源:服务器获取请求报文中请求的资源web服务器,即存放了web资源的服务器,负责向请求者提供对方请求的静态资源,或动态运行后生成的资源
5、构建响应报文:一旦Web服务器识别除了资源,就执行请求方法中描述的动作,并返回响应报文。响应报文中 包含有响应状态码、响应首部,如果生成了响应主体的话,还包括响应主体

  1. 响应实体:如果事务处理产生了响应主体,就将内容放在响应报文中回送过去。响应报文中通常包括:
  • 描述了响应主体MIME类型的Content-Type首部
  • 描述了响应主体长度的Content-Length
  • 实际报文的主体内容
  1. URL重定向:web服务构建的响应并非客户端请求的资源,而是资源另外一个访问路径
  2. MIME类型: Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来
  • 魔法分类:Apache web服务器可以扫描每个资源的内容,并将其与一个已知模式表(被称为魔法文件)进行匹配,以决定每个文件的MIME类型。这样做可能比较慢,但很方便,尤其是文件没有标准扩展名时
  • 显式分类:可以对Web服务器进行配置,使其不考虑文件的扩展名或内容,强制特定文件或目录内容拥有某个MIME类型
  • 类型协商: 有些Web服务器经过配置,可以以多种文档格式来存储资源。在这种情况下,可以配置Web服务器,使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)"最好"

6、发送响应报文:Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接,有些是空闲的,有些在向服务器发送数据,还有一些在向客户端回送响应数据。服务器要记录连接的状态,还要特别注意对持久连接的处理。对非持久连接而言,服务器应该在发送了整条报文之后,关闭自己这一端的连接。对持久连接来说,连接可能仍保持打开状态,在这种情况下,服务器要正确地计算Content-Length首部,不然客户端就无法知道响应什么时候结束
7、记录日志
最后,当事务结束时,Web服务器会在日志文件中添加一个条目,来描述已执行的事务

猜你喜欢

转载自www.cnblogs.com/-one/p/12584923.html