1.主机字节序与网络字节序
CPU 向内存保存数据的方式有 2 2 2 种,这意味着 CPU 解析数据的方式也分为 2 2 2 种:
- 大端序(Big Endian):高位字节存放到低位地址。
- 小端序(Little Endian):高位字节存放到高位地址。
例如,对于整数 0 x 12345678 0x12345678 0x12345678 来说, 0 x 12 0x12 0x12 是最高位字节, 0 x 78 0x78 0x78 是最低位字节。假设在 0 x 20 0x20 0x20 号开始的地址中保存 4 4 4 字节 int 类型数 0 x 12345678 0x12345678 0x12345678。
大端序 CPU 保存方式如下图所示:
小端序 CPU 保存方式如下图所示:
从以上分析可以看出,每种 CPU 的数据保存方式均不同。因此,代表 CPU 数据保存方式的主机字节序(Host Byte Order)在不同 CPU 中也各不相同。目前主流的 Intel 系列 CPU 以小端序方式保存数据。
接下来分析 2 2 2 台字节序不同的计算机之间数据传递过程中可能出现的问题,如下图所示。
在上图中,大端序系统传输数据 0 x 1234 0x1234 0x1234 时未考虑字节序问题,而直接以 0 x 12 0x12 0x12、 0 x 34 0x34 0x34 的顺序发送。结果接收端以小端序方式保存数据,因此小端序接收的数据变成 0 x 3412 0x3412 0x3412,而非 0 x 1234 0x1234 0x1234。
正因如此,在通过网络传输数据时约定统一方式,这种约定称为网络字节序(Network Byte Order),非常简单:统一为大端序,即先把数据数组转化成大端序格式再进行网络传输。因此,所有计算机接收数据时应识别该数据是网络字节序格式,小端序系统传输数据时应转化为大端序排列方式。
2.字节序转换(Endian Conversions)
相信大家已经理解了 HelloWorld 服务器端和客户端为何要在填充 sockaddr_in
结构体前将数据转换成网络字节序。
接下来介绍帮助转换字节序的函数。
unsigned short htons(unsigned short);
unsigned short ntohs(unsigned short);
unsigned long htonl(unsigned long);
unsigned long ntohl(unsigned long);
通过函数名应该能掌握其功能,只需了解以下细节。
h
代表主机(host)字节序n
代表网络(network)字节序s
指的是 short,l
指的是 long(Linux中long类型占用4个字节,这很关键)
因此,htons 是 h、to、n、s 的组合,可以解释为“把short型数据从主机字节序转化为网络字节序”。再举个例子,ntohs 可以解释为“把short型数据从网络字节序转化为主机字节序”。
通常,以 s
作为后缀的函数中,s
代表 2 2 2 个字节 short,因此用于端口号转换;以 l
作为后缀的函数中,l
代表 4 4 4 个字节,因此用于IP地址转换。
下面通过示例代码 endian_conv.c 说明以上函数的调用过程:
#include <stdio.h>
#include <arpa/inet.h>
int main(int argc, char *argv[])
{
// 各保存2个字节、4个字节的数据。当然,若运行程序的CPU不同,则保存的字节序也不同。
unsigned short host_port = 0x1234;
unsigned short net_port;
unsigned long host_addr = 0x12345678;
unsigned long net_addr;
// 变量host_port和host_addr中的数据转化为网络字节序。若运行环境为小端序CPU,则按改变之后的字节序保存。
net_port = htons(host_port);
net_addr = htonl(host_addr);
printf("Host ordered port: %#x\n", host_port);
printf("Network ordered port: %#x\n", net_port);
printf("Host ordered address: %#lx\n", host_addr);
printf("Network ordered address: %#lx\n", net_addr);
return 0;
}
编译运行:
gcc endian_conv.c -o conv
./conv
输出结果:
Host ordered port: 0x1234
Network ordered port: 0x3412
Host ordered address: 0x12345678
Network ordered address: 0x78563412
这就是在小端序 CPU 中运行的结果。如果在大端序 CPU 中运行,则变量值不会改变。大部分朋友都会得到类似的运行结果,因为 Intel 和 AMD 系列的 CPU 都采用小端序标准。
问:数据在传输之前都要经过转换吗?
答:也许有读者认为“既然数据传输采用网络字节序,那在传输前应直接把数据转换成网络字节序,接收的数据也需要转换成主机字节序再保存”。如果数据收发过程中没有自动转换机制,那当然需要程序员手动转换。这光想想就让人觉得可怕,难道真要强求程序员做这些事情吗?实际上没必要,这个过程是自动的。除了向 sockaddr_in
结构体变量填充数据外,其他情况无需考虑字节序问题。
问:我的系统是大端序的,为 sockaddr_in
结构体变量赋值前就不需要转换字节序了吧?
答:这么说也不能算错。但有必要编写与大端序无关的统一代码。这样,即使在大端序系统中,最好也经过主机字节序转换为网络字节序的过程。当然,此时主机字节序与网络字节序相同,不会有任何变化。