《图解HTTP》(六)-HTTP首部

6.1 HTTP 报文

       HTTP 协议的请求和响应报文中必定包含 HTTP 首部。首部内容为客户端和服务器分别处理请求和响应提供所需要的信息。对于客户端用户来说,这些信息中的大部分内容都无须亲自查看。
       报文首部由几个字段构成。

     HTTP 请求报文

       在请求中,HTTP 报文由方法、URI、HTTP 版本、HTTP 首部字段等部分构成。

 

      图:请求报文
      下面的示例是访问 http://hackr.jp 时,请求报文的首部信息。
      GET / HTTP/1.1
      Host: hackr.jp
      User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/20100101 Firefox/13.0
      Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*; q=0.8
      Accept-Language: ja,en-us;q=0.7,en;q=0.3
      Accept-Encoding: gzip, deflate
      DNT: 1
      Connection: keep-alive
      If-Modified-Since: Fri, 31 Aug 2007 02:02:20 GMT

    HTTP 响应报文

     在响应中,HTTP 报文由 HTTP 版本、状态码(数字和原因短语)、HTTP 首部字段 3 部分构成。

     图:响应报文
     以下示例是之前请求访问 http://hackr.jp/ 时,返回的响应报文的首部信息。
        HTTP/1.1 304 Not Modified
        Date: Thu, 07 Jun 2012 07:21:36 GMT
        Server: Apache
        Connection: close
        Etag: "45bae1-16a-46d776ac"

       在报文众多的字段当中,HTTP 首部字段包含的信息最为丰富。首部字段同时存在于请求和响应报文内,并涵盖 HTTP 报文相关的内容信息。
       因 HTTP 版本或扩展规范的变化,首部字段可支持的字段内容略有不同。

6.2 HTTP 首部

     6.2.1 HTTP 首部字段传递重要信息

       HTTP 首部字段是构成 HTTP 报文的要素之一。在客户端与服务器之间以 HTTP 协议进行通信的过程中,无论是请求还是响应都会使用首部字段,它能起到传递额外重要信息的作用。
       使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言、认证信息等内容。

     6.2.2 HTTP 首部字段结构

      HTTP 首部字段是由首部字段名和字段值构成的,中间用冒号“:” 分隔。
      首部字段名: 字段值
      例如,在 HTTP 首部中以 Content-Type 这个字段来表示报文主体的 对象类型。
      Content-Type: text/html

      当 HTTP 报文首部中出现了两个或两个以上具有相同首部字段名时会怎么样?这种情况在规范内尚未明确,根据浏览器内部处理逻辑的不同,结果可能并不一致。有些浏览器会优先处理第一次出现的首部字段,而有些则会优先处理最后出现的首部字段。

     6.2.3 4 种 HTTP 首部字段类型

       HTTP 首部字段根据实际用途被分为以下 4 种类型。
       通用首部字段(General Header Fields)
       请求报文和响应报文两方都会使用的首部。
       请求首部字段(Request Header Fields)
       从客户端向服务器端发送请求报文时使用的首部。补充了请求的附加内容、客户端信息、响应内容相关优先级等信息。
       响应首部字段(Response Header Fields)
       从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息。
       实体首部字段(Entity Header Fields)
       针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的信息。

     6.2.4 HTTP/1.1 首部字段一览

       HTTP/1.1 规范定义了如下 47 种首部字段。

                           表 6-1:通用首部字段

                             表 6-2:请求首部

                         表 6-3:响应首部字段

                          表 6-4:实体首部字段

     6.2.5 非 HTTP/1.1 首部字段

      在 HTTP 协议通信交互中使用到的首部字段,不限于 RFC2616 中定义的 47 种首部字段。还有 Cookie、Set-Cookie 和 Content-Disposition等在其他 RFC 中定义的首部字段,它们的使用频率也很高。
      这些非正式的首部字段统一归纳在 RFC4229 HTTP Header FieldRegistrations中。

    6.2.6 End-to-end 首部和 Hop-by-hop 首部

     HTTP 首部字段将定义成缓存代理和非缓存代理的行为,分成 2 种类型。
     端到端首部(End-to-end Header)
     分在此类别中的首部会转发给请求 / 响应对应的最终接收目标,且必须保存在由缓存生成的响应中,另外规定它必须被转发。

     逐跳首部(Hop-by-hop Header)
     分在此类别中的首部只对单次转发有效,会因通过缓存或代理而不再转发。HTTP/1.1 和之后版本中,如果要使用 hop-by-hop 首部,需提供 Connection 首部字段。

    下面列举了 HTTP/1.1 中的逐跳首部字段。除这 8 个首部字段之外,
    其他所有字段都属于端到端首部。
    Connection
    Keep-Alive
    Proxy-Authenticate
    Proxy-Authorization
   Trailer
   TE
   Transfer-Encoding
   Upgrade

6.3 HTTP/1.1 通用首部字段

       通用首部字段是指,请求报文和响应报文双方都会使用的首部。

    6.3.1 Cache-Control

      通过指定首部字段 Cache-Control 的指令,就能操作缓存的工作机制。

      首部字段 Cache-Control 能够控制缓存的行为
      指令的参数是可选的,多个指令之间通过“,”分隔。首部字段 CacheControl 的指令可用于请求及响应时。
Cache-Control: private, max-age=0, no-cache

    6.3.2 Connection

      Connection 首部字段具备如下两个作用。
      1、控制不再转发给代理的首部字段

      在客户端发送请求和服务器返回响应内,使用 Connection 首部字段,可控制不再转发给代理的首部字段(即 Hop-by-hop 首
部)。
      2、管理持久连接

      HTTP/1.1 版本的默认连接都是持久连接。为此,客户端会在持久连接上连续发送请求。当服务器端想明确断开连接时,则指定Connection 首部字段的值为 Close。

    6.3.3 Date

     首部字段 Date 表明创建 HTTP 报文的日期和时间。

    6.3.4 Pragma

     Pragma 是 HTTP/1.1 之前版本的历史遗留字段,仅作为与 HTTP/1.0的向后兼容而定义。
     规范定义的形式唯一,如下所示。
     Pragma: no-cache
    该首部字段属于通用首部字段,但只用在客户端发送的请求中。客户端会要求所有的中间服务器不返回缓存的资源。

   6.3.5 Trailer

     首部字段 Trailer 会事先说明在报文主体后记录了哪些首部字段。该首部字段可应用在 HTTP/1.1 版本分块传输编码时。

   6.3.6 Transfer-Encoding

    首部字段 Transfer-Encoding 规定了传输报文主体时采用的编码方式。

   6.3.7 Upgrade

    首部字段 Upgrade 用于检测 HTTP 协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定一个完全不同的通信协议。

   6.3.8 Via

     使用首部字段 Via 是为了追踪客户端与服务器之间的请求和响应报文的传输路径。

     报文经过代理或网关时,会先在首部字段 Via 中附加该服务器的信息,然后再进行转发。这个做法和 traceroute 及电子邮件的 Received首部的工作机制很类似。
    首部字段 Via 不仅用于追踪报文的转发,还可避免请求回环的发生。所以必须在经过代理时附加该首部字段内容。

   6.3.9 Warning

     HTTP/1.1 的 Warning 首部是从 HTTP/1.0 的响应首部(Retry-After)演变过来的。该首部通常会告知用户一些与缓存相关的问题的警告。

6.4 请求首部字段

       请求首部字段是从客户端往服务器端发送请求报文中所使用的字段,用于补充请求的附加信息、客户端信息、对响应内容相关的优先级等内容。

     6.4.1 Accept

       Accept 首部字段可通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用 type/subtype 这种形式,一次指定多种媒体类型。

     6.4.2 Accept-Charset

       Accept-Charset 首部字段可用来通知服务器用户代理支持的字符集及字符集的相对优先顺序。另外,可一次性指定多种字符集。与首部字段 Accept 相同的是可用权重 q 值来表示相对优先级。

     6.4.3 Accept-Encoding

     Accept-Encoding 首部字段用来告知服务器用户代理支持的内容编码及内容编码的优先级顺序。可一次性指定多种内容编码。

     6.4.4 Accept-Language

       首部字段 Accept-Language 用来告知服务器用户代理能够处理的自然语言集(指中文或英文等),以及自然语言集的相对优先级。可一次指定多种自然语言集。

     6.4.5 Authorization

       首部字段 Authorization 是用来告知服务器,用户代理的认证信息(证书值)。通常,想要通过服务器认证的用户代理会在接收到返回的401 状态码响应后,把首部字段 Authorization 加入请求中。共用缓存在接收到含有 Authorization 首部字段的请求时的操作处理会略有差异。

     6.4.6 Expect

       客户端使用首部字段 Expect 来告知服务器,期望出现的某种特定行为。因服务器无法理解客户端的期望作出回应而发生错误时,会返回状态码 417 Expectation Failed。

      6.4.7 From

       首部字段 From 用来告知服务器使用用户代理的用户的电子邮件地址。通常,其使用目的就是为了显示搜索引擎等用户代理的负责人的电子邮件联系方式。使用代理时,应尽可能包含 From 首部字段(但可能会因代理不同,将电子邮件地址记录在 User-Agent 首部字段内)。

      6.4.8 Host

       首部字段 Host 会告知服务器,请求的资源所处的互联网主机名和端口号。Host 首部字段在 HTTP/1.1 规范内是唯一一个必须被包含在请求内的首部字段。

        首部字段 Host 和以单台服务器分配多个域名的虚拟主机的工作机制有很密切的关联,这是首部字段 Host 必须存在的意义。
请求被发送至服务器时,请求中的主机名会用 IP 地址直接替换解决。但如果这时,相同的 IP 地址下部署运行着多个域名,那么服务器就会无法理解究竟是哪个域名对应的请求。因此,就需要使用首部字段 Host 来明确指出请求的主机名。若服务器未设定主机名

     6.4.9 If-Match

       形如 If-xxx 这种样式的请求首部字段,都可称为条件请求。服务器接收到附带条件的请求后,只有判断指定条件为真时,才会执行请求。

    6.4.10 If-Modified-Since

       首部字段 If-Modified-Since,属附带条件之一,它会告知服务器若 IfModified-Since 字段值早于资源的更新时间,则希望能处理该请求。而在指定 If-Modified-Since 字段值的日期时间之后,如果请求的资源都没有过更新,则返回状态码 304 Not Modified 的响应。
       If-Modified-Since 用于确认代理或客户端拥有的本地资源的有效性。获取资源的更新日期时间,可通过确认首部字段 Last-Modified 来确定。

    6.4.11 If-None-Match

      首部字段 If-None-Match 属于附带条件之一。它和首部字段 If-Match作用相反。用于指定 If-None-Match 字段值的实体标记(ETag)值与请求资源的 ETag 不一致时,它就告知服务器处理该请求。在 GET 或 HEAD 方法中使用首部字段 If-None-Match 可获取最新的资源。因此,这与使用首部字段 If-Modified-Since 时有

    6.4.12 If-Range

      首部字段 If-Range 属于附带条件之一。它告知服务器若指定的 IfRange 字段值(ETag 值或者时间)和请求资源的 ETag 值或时间相一致时,则作为范围请求处理。反之,则返回全体资源。

    6.4.13 If-Unmodified-Since

      首部字段 If-Unmodified-Since 和首部字段 If-Modified-Since 的作用相反。它的作用的是告知服务器,指定的请求资源只有在字段值内指定的日期时间之后,未发生更新的情况下,才能处理请求。如果在指定日期时间后发生了更新,则以状态码 412 Precondition Failed 作为响应返回。

    6.4.14 Max-Forwards

      通过 TRACE 方法或 OPTIONS 方法,发送包含首部字段 MaxForwards 的请求时,该字段以十进制整数形式指定可经过的服务器最大数目。服务器在往下一个服务器转发请求之前,Max-Forwards 的值减 1 后重新赋值。当服务器接收到 Max-Forwards 值为 0 的请求时,则不再进行转发,而是直接返回响应。

    6.4.15 Proxy-Authorization

     接收到从代理服务器发来的认证质询时,客户端会发送包含首部字段Proxy-Authorization 的请求,以告知服务器认证所需要的信息。

    6.4.16 Range

      对于只需获取部分资源的范围请求,包含首部字段 Range 即可告知服务器资源的指定范围。上面的示例表示请求获取从第 5001 字节至第10000 字节的资源。

    6.4.17 Referer

      首部字段 Referer 会告知服务器请求的原始资源的 URI。客户端一般都会发送 Referer 首部字段给服务器。但当直接在浏览器
的地址栏输入 URI,或出于安全性的考虑时,也可以不发送该首部字段。

    6.4.18 TE

       首部字段 TE 会告知服务器客户端能够处理响应的传输编码方式及相对优先级。它和首部字段 Accept-Encoding 的功能很相像,但是用于传输编码。
       首部字段 TE 除指定传输编码之外,还可以指定伴随 trailer 字段的分块传输编码的方式。应用后者时,只需把 trailers 赋值给该字段值。

    6.4.19 User-Agent

      首部字段 User-Agent 会将创建请求的浏览器和用户代理名称等信息传达给服务器。

6.5 响应首部

       响应首部字段是由服务器端向客户端返回响应报文中所使用的字段,用于补充响应的附加信息、服务器信息,以及对客户端的附加要求等信息。

    6.5.1 Accept-Ranges

      首部字段 Accept-Ranges 是用来告知客户端服务器是否能处理范围请求,以指定获取服务器端某个部分的资源。
      可指定的字段值有两种,可处理范围请求时指定其为 bytes,反之则指定其为 none。

    6.5.2 Age

     首部字段 Age 能告知客户端,源服务器在多久前创建了响应。字段值的单位为秒。
     若创建该响应的服务器是缓存服务器,Age 值是指缓存后的响应再次发起认证到认证完成的时间值。代理创建响应时必须加上首部字段Age。

    6.5.3 ETag

    首部字段 ETag 能告知客户端实体标识。它是一种可将资源以字符串形式做唯一性标识的方式。服务器会为每份资源分配对应的 ETag值。

    6.5.4 Location

     使用首部字段 Location 可以将响应接收方引导至某个与请求 URI 位置不同的资源。
     基本上,该字段会配合 3xx :Redirection 的响应,提供重定向的URI。
     几乎所有的浏览器在接收到包含首部字段 Location 的响应后,都会强制性地尝试对已提示的重定向资源的访问。

   6.5.5 Proxy-Authenticate

    首部字段 Proxy-Authenticate 会把由代理服务器所要求的认证信息发送给客户端。
    它与客户端和服务器之间的 HTTP 访问认证的行为相似,不同之处在于其认证行为是在客户端与代理之间进行的。而客户端与服务器之间进行认证时,首部字段 WWW-Authorization 有着相同的作用。

    6.5.6 Retry-After

     首部字段 Retry-After 告知客户端应该在多久之后再次发送请求。主要配合状态码 503 Service Unavailable 响应,或 3xx Redirect 响应一起使用。
    字段值可以指定为具体的日期时间(Wed, 04 Jul 2012 06:34:24GMT 等格式),也可以是创建响应后的秒数。

   6.5.7 Server

     首部字段 Server 告知客户端当前服务器上安装的 HTTP 服务器应用程序的信息。不单单会标出服务器上的软件应用名称,还有可能包括版本号和安装时启用的可选项。

   6.5.8 Vary

    首部字段 Vary 可对缓存进行控制。源服务器会向代理服务器传达关于本地缓存使用方法的命令。

   6.5.9 WWW-Authenticate

    首部字段 WWW-Authenticate 用于 HTTP 访问认证。它会告知客户端适用于访问请求 URI 所指定资源的认证方案(Basic 或是 Digest)和带参数提示的质询(challenge)。状态码 401 Unauthorized 响应中,肯定带有首部字段 WWW-Authenticate。

6.6 实体首部字段

     实体首部字段是包含在请求报文和响应报文中的实体部分所使用的首部,用于补充内容的更新时间等与实体相关的信息。

   6.6.1 Allow

     首部字段 Allow 用于通知客户端能够支持 Request-URI 指定资源的所有 HTTP 方法。当服务器接收到不支持的 HTTP 方法时,会以状态码405 Method Not Allowed 作为响应返回。与此同时,还会把所有能支持的 HTTP 方法写入首部字段 Allow 后返回。

   6.6.2 Content-Encoding

    首部字段 Content-Encoding 会告知客户端服务器对实体的主体部分选用的内容编码方式。内容编码是指在不丢失实体信息的前提下所进行的压缩。

   6.6.3 Content-Language

    首部字段 Content-Language 会告知客户端,实体主体使用的自然语言(指中文或英文等语言)。

   6.6.4 Content-Length

    首部字段 Content-Length 表明了实体主体部分的大小(单位是字节)。对实体主体进行内容编码传输时,不能再使用 Content-Length首部字段。

   6.6.5 Content-Location

    首部字段 Content-Location 给出与报文主体部分相对应的 URI。和首部字段 Location 不同,Content-Location 表示的是报文主体返回资源对应的 URI。

   6.6.6 Content-MD5

    首部字段 Content-MD5 是一串由 MD5 算法生成的值,其目的在于检查报文主体在传输过程中是否保持完整,以及确认传输到达。

   6.6.7 Content-Range

    针对范围请求,返回响应时使用的首部字段 Content-Range,能告知客户端作为响应返回的实体的哪个部分符合范围请求。字段值以字节为单位,表示当前发送部分及整个实体大小。

   6.6.8 Content-Type

    首部字段 Content-Type 说明了实体主体内对象的媒体类型。和首部字段 Accept 一样,字段值用 type/subtype 形式赋值。参数 charset 使用 iso-8859-1 或 euc-jp 等字符集进行赋值。

   6.6.9 Expires

     首部字段 Expires 会将资源失效的日期告知客户端。缓存服务器在接收到含有首部字段 Expires 的响应后,会以缓存来应答请求,在Expires 字段值指定的时间之前,响应的副本会一直被保存。当超过指定的时间后,缓存服务器在请求发送过来时,会转向源服务器请求资源。

   6.6.10 Last-Modified

    首部字段 Last-Modified 指明资源最终修改的时间。一般来说,这个值就是 Request-URI 指定资源被修改的时间。但类似使用 CGI 脚本进行动态数据处理时,该值有可能会变成数据最终修改时的时间。

6.7 为 Cookie 服务的首部字段

       管理服务器与客户端之间状态的 Cookie,虽然没有被编入标准化HTTP/1.1 的 RFC2616 中,但在 Web 网站方面得到了广泛的应用。Cookie 的工作机制是用户识别及状态管理。Web 网站为了管理用户的状态会通过 Web 浏览器,把一些数据临时写入用户的计算机内。接着当用户访问该Web网站时,可通过通信方式取回之前发放的Cookie。
       调用Cookie 时,由于可校验 Cookie 的有效期,以及发送方的域、路径、协议等信息,所以正规发布的 Cookie 内的数据不会因来自其他Web 站点和攻击者的攻击而泄露。

    6.7.1 Set-Cookie

     Set-Cookie: status=enable; expires=Tue, 05 Jul 2011 07:26:31 GMT; path=/; domain=.hackr.jp;
     当服务器准备开始管理客户端的状态时,会事先告知各种信息。

   6.7.2 Cookie

     首部字段 Cookie 会告知服务器,当客户端想获得 HTTP 状态管理支持时,就会在请求中包含从服务器接收到的 Cookie。接收到多个Cookie 时,同样可以以多个 Cookie 形式发送。

6.8 其他首部字段

    HTTP 首部字段是可以自行扩展的。所以在 Web 服务器和浏览器的应用上,会出现各种非标准的首部字段。

   6.8.1 X-Frame-Options

     首部字段 X-Frame-Options 属于 HTTP 响应首部,用于控制网站内容在其他 Web 网站的 Frame 标签内的显示问题。其主要目的是为了防止点击劫持(clickjacking)攻击。

   6.8.2 X-XSS-Protection

    首部字段 X-XSS-Protection 属于 HTTP 响应首部,它是针对跨站脚本
    攻击(XSS)的一种对策,用于控制浏览器 XSS 防护机制的开关。

   6.8.3 DNT

    首部字段 DNT 属于 HTTP 请求首部,其中 DNT 是 Do Not Track 的简称,意为拒绝个人信息被收集,是表示拒绝被精准广告   

    追踪的一种方法。
    首部字段 DNT 可指定的字段值如下。
    0 :同意被追踪
    1 :拒绝被追踪

   6.8.4 P3P

    首部字段 P3P 属于 HTTP 相应首部,通过利用 P3P(The Platform forPrivacy Preferences,在线隐私偏好平台)技术,可以让 Web 网站上的个人隐私变成一种仅供程序可理解的形式,以达到保护用户隐私的目的。
    要进行 P3P 的设定,需按以下操作步骤进行。
    步骤 1:创建 P3P 隐私
    步骤 2:创建 P3P 隐私对照文件后,保存命名在 /w3c/p3p.xml
    步骤 3:从 P3P 隐私中新建 Compact policies 后,输出到 HTTP 响应中。

猜你喜欢

转载自blog.csdn.net/chenshiyang0806/article/details/85091902