网络字节序与地址变换

1.主机字节序与网络字节序

CPU 向内存保存数据的方式有 2 2 2 种,这意味着 CPU 解析数据的方式也分为 2 2 2 种:

  • 大端序(Big Endian):高位字节存放到低位地址。
  • 小端序(Little Endian):高位字节存放到高位地址。

例如,对于整数 0 x 12345678 0x12345678 0x12345678 来说, 0 x 12 0x12 0x12 是最高位字节, 0 x 78 0x78 0x78 是最低位字节。假设在 0 x 20 0x20 0x20 号开始的地址中保存 4 4 4 字节 int 类型数 0 x 12345678 0x12345678 0x12345678

大端序 CPU 保存方式如下图所示:

在这里插入图片描述

小端序 CPU 保存方式如下图所示:

在这里插入图片描述

从以上分析可以看出,每种 CPU 的数据保存方式均不同。因此,代表 CPU 数据保存方式的主机字节序(Host Byte Order)在不同 CPU 中也各不相同。目前主流的 Intel 系列 CPU 以小端序方式保存数据。

接下来分析 2 2 2 台字节序不同的计算机之间数据传递过程中可能出现的问题,如下图所示。

在这里插入图片描述

扫描二维码关注公众号,回复: 14818956 查看本文章

在上图中,大端序系统传输数据 0 x 1234 0x1234 0x1234 时未考虑字节序问题,而直接以 0 x 12 0x12 0x12 0 x 34 0x34 0x34 的顺序发送。结果接收端以小端序方式保存数据,因此小端序接收的数据变成 0 x 3412 0x3412 0x3412,而非 0 x 1234 0x1234 0x1234

正因如此,在通过网络传输数据时约定统一方式,这种约定称为网络字节序(Network Byte Order),非常简单:统一为大端序,即先把数据数组转化成大端序格式再进行网络传输。因此,所有计算机接收数据时应识别该数据是网络字节序格式,小端序系统传输数据时应转化为大端序排列方式。

2.字节序转换(Endian Conversions)

相信大家已经理解了 HelloWorld 服务器端和客户端为何要在填充 sockaddr_in 结构体前将数据转换成网络字节序。

接下来介绍帮助转换字节序的函数。

unsigned short htons(unsigned short);
unsigned short ntohs(unsigned short);
unsigned long htonl(unsigned long);
unsigned long ntohl(unsigned long);

通过函数名应该能掌握其功能,只需了解以下细节。

  • h 代表主机(host)字节序
  • n 代表网络(network)字节序
  • s 指的是 short,l 指的是 long(Linux中long类型占用4个字节,这很关键)

因此,htons 是 h、to、n、s 的组合,可以解释为“把short型数据从主机字节序转化为网络字节序”。再举个例子,ntohs 可以解释为“把short型数据从网络字节序转化为主机字节序”。

通常,以 s 作为后缀的函数中,s 代表 2 2 2 个字节 short,因此用于端口号转换;以 l 作为后缀的函数中,l 代表 4 4 4 个字节,因此用于IP地址转换。

下面通过示例代码 endian_conv.c 说明以上函数的调用过程:

#include <stdio.h>
#include <arpa/inet.h>

int main(int argc, char *argv[])
{
    
    
	// 各保存2个字节、4个字节的数据。当然,若运行程序的CPU不同,则保存的字节序也不同。
	unsigned short host_port = 0x1234;
	unsigned short net_port;
	unsigned long host_addr = 0x12345678;
	unsigned long net_addr;
	
	// 变量host_port和host_addr中的数据转化为网络字节序。若运行环境为小端序CPU,则按改变之后的字节序保存。
	net_port = htons(host_port);
	net_addr = htonl(host_addr);

	printf("Host ordered port: %#x\n", host_port);
	printf("Network ordered port: %#x\n", net_port);
	printf("Host ordered address: %#lx\n", host_addr);
	printf("Network ordered address: %#lx\n", net_addr);

	return 0;
}

编译运行:

gcc endian_conv.c -o conv
./conv

输出结果:

Host ordered port: 0x1234
Network ordered port: 0x3412
Host ordered address: 0x12345678
Network ordered address: 0x78563412

这就是在小端序 CPU 中运行的结果。如果在大端序 CPU 中运行,则变量值不会改变。大部分朋友都会得到类似的运行结果,因为 Intel 和 AMD 系列的 CPU 都采用小端序标准。

问:数据在传输之前都要经过转换吗?

答:也许有读者认为“既然数据传输采用网络字节序,那在传输前应直接把数据转换成网络字节序,接收的数据也需要转换成主机字节序再保存”。如果数据收发过程中没有自动转换机制,那当然需要程序员手动转换。这光想想就让人觉得可怕,难道真要强求程序员做这些事情吗?实际上没必要,这个过程是自动的。除了向 sockaddr_in 结构体变量填充数据外,其他情况无需考虑字节序问题。

问:我的系统是大端序的,为 sockaddr_in 结构体变量赋值前就不需要转换字节序了吧?

答:这么说也不能算错。但有必要编写与大端序无关的统一代码。这样,即使在大端序系统中,最好也经过主机字节序转换为网络字节序的过程。当然,此时主机字节序与网络字节序相同,不会有任何变化。

猜你喜欢

转载自blog.csdn.net/qq_42815188/article/details/129504801