【计算机网络】HTTP 协议

在这里插入图片描述

前言

前面我们介绍了网络 TCP/IP 五层模型中的各个层，在这五层中，应用层是和我们程序员息息相关的，需要我们程序员写出代码来实现，前面我们只是简单讲了应用层中的自定义协议，虽然自定义协议显得很灵活可以根据需求随时更改，但是在实际生活中自定义的协议使用的还是少数。在应用层中常见的协议就是 HTTP 协议，今天我将为大家分享关于 HTTP 协议相关的知识。

什么是 HTTP

HTTP，全称为超文本传输协议（Hypertext Transfer Protocol），是一种应用层协议，用于在网络中传输超文本（如 HTML）。它是在互联网上应用最为广泛的一种网络协议，所有的www文件都必须遵守这个标准。HTTP是客户端浏览器或其他程序与Web服务器之间的应用层通信协议。在Internet上的Web服务器上存放的都是超文本信息，HTTP客户端通过发送请求获取服务器上的文本信息。HTTP协议工作于TCP/IP协议栈的的应用层，用于从网站的服务器中检索信息，请求被（今后称为被HTTP客户）发送到服务器。

在这里插入图片描述
HTTP 诞生于 1991 年，目前已经发展成为最主流的一种应用层协议。从开始的 HTTP 0.9 用于个人/机构主页开始，经过 HTTP 1.0 门户网站和 HTTP 1.1版本用于搜索引擎和社交网络到 HTTP 2.0 ，再到今天的 HTTP 3，HTTP 经过了很多版本的迭代，其中 HTTP 1.1 是我们目前最主要使用的，所以本篇博客我也将以 HTTP 1.1 为例为大家分享关于 HTTP 相关的知识。

HTTP 往往是基于传输层的 TCP 协议实现的（HTTP 1.0、HTTP 1.1、 HTTP 2.0 均为 TCP，HTTP 3基于 UDP 实现）。

我们在平时生活中访问网站就是通过 HTTP 协议来进行数据的传输的。

在这里插入图片描述
当我们在浏览器输入一个百度网址（URL）的时候，浏览器会向百度的服务器发送一个 HTTP 服务器请求，然后百度服务器会返回一个 HTTP 响应。浏览器会将这个响应进行解析，然后就以上面的方式呈现在我们眼前。（这个响应里面包含了 HTML、CSS、JavaScript、图片、文字等信息）

理解 HTTP 请求和响应格式

跟前面的 TCP/IP 协议不同，HTTP 的报文格式需要划分为请求报文和响应报文来分析，因为 HTTP 的请求和响应的报文格式是不相同的。

要想学习 HTTP 的请求和响应格式，就需要首先得到 HTTP 的请求和响应数据包，通过前面为大家分享的 HTTP 抓包工具 Fiddler 这个代理工具来抓取到 HTTP 的请求和响应数据包。

HTTP 的请求格式

在这里插入图片描述

HTTP 的请求格式大致分为四个部分：首行、请求头（header）、空行、正文（body）

1. 首行

在这里插入图片描述

HTTP 的首行分为三个部分，每个部分用空格分隔开。

第一个部分 GET 叫做请求的“方法”（method），方法不止有 GET 还有像 POST 等的方法这里我们先简单知道，后面再为大家详细分享。

第二个部分就是 URL（唯一资源定位符），用来描述一个资源在网络上的位置。URL 不只是在 HTTP 中会使用，URL 在其他很地方也都会用到。

在这里插入图片描述

协议方案：这部分定义了网页使用的网络服务类型，例如http或https。
登录信息：用户输入的用户名和密码。现在一般用不到这个了。
服务器地址：这部分定义了网站的域名，例如www.aspxfans.com。在URL中，也可以使用IP地址作为域名。
服务器端口号：这部分定义了主机上的端口号。端口不是URL必须的部分，如果省略端口部分，将采用默认端口。对于 HTTP 请求，端口号默认是 80 端口；对于 HTTPS 协议，端口号默认是 443 端口。
虚拟目录部分：这部分从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。虚拟目录也不是一个URL必须的部分。
- 虽然这里的写法是目录的形式，但是在服务器是不一定是以目录的方式存储资源的。数据可能是硬盘资源，也可能是内存的数据，也可能是通过网路访问其他服务器拿到的数据，还可能是 CPU 计算出来的数据。
查询字符串：这部分包含了一些参数，这些参数可以用来传递一些额外的信息。
- 查询字符串是以？开始的键值对结构的数据，键和值之间用 = 连接，可以有多个键值对，不同的键值对之间使用 & 连接。这个 query string 是程序员自定义的用来补充相关的查询请求，并且这个 query string 也会通过 urlencode 转码。举个例子：我搜索c++，搜索栏中的首行 query string 部分的%2B%2B就是++的转码，因为这些特殊符号可能会与其他标识符产生歧义，经过转码的字符就是用%来标识的。
片段标识符：这部分定义了一个链接到网页的特定部分，通常用于指向页面的特定内容或导航点。

首行中的第三个部分就是 HTTP 的版本号。

2. 请求头

在这里插入图片描述
HTTP 请求头是一个键值对结构的数据，里面含有很多的键值对，每个键值对独占一行，键和值之间通过冒号加空格: 连接，并且这些键值对都是属于“标准规定”的，要求我们这样写。这些键值对具体的含义，后面为大家详细介绍。

3. 空行

这里空行是请求头的结束标记。
在这里插入图片描述
这里我们看到在抓取到的百度请求数据包的末尾是有一个空行的。这就是请求头的结束标志。

4. 正文（body）

HTTP数据包中的正文（Body）通常指的是请求或响应的消息体，它包含了实际传输的数据内容。在HTTP请求中，正文通常包含了客户端要发送给服务器的数据，例如表单数据、JSON数据等。在HTTP响应中，正文通常包含了服务器返回给客户端的数据，例如HTML页面、JSON数据等。

HTTP正文是由一些字节组成的，可以是任何类型的数据，包括文本、二进制数据等。在HTTP协议中，正文使用Content-Type头部来指定其数据的类型和编码方式。常见的Content-Type类型包括text/html、application/json等。

需要注意的是，HTTP请求和响应的正文是可选的，它们不是每个HTTP数据包都必须包含的部分。如果正文不存在，则请求或响应的消息体将为空。

这里我们抓取到的 HTTP 请求数据包中就没有正文部分。

在这里插入图片描述