【网络编程】socket套接字

一、源IP和目的IP

如果我们的台式机或者笔记本没有IP地址就无法上网,而因为每台主机都有IP地址,所以注定了数据从一台主机传输到另一台主机一定有源IP和目的IP
所以在报头中就会包含源IP和目的IP。

而我们把数据从一台主机传递到另一台主机并不是目的,真正通信的其实是应用层上的软件。
在这里插入图片描述
而我们知道应用层可不止一个软件

那么我们现在就有了问题:
既然有了公网IP标识了一台唯一的主机,那么数据就可以由一台主机传递到另一台主机。但是有这么多的软件(进程),怎么保证软件A发送的被软件B接收呢?
换句话说:用什么来标识主机上的进程的唯一性呢?

二、端口号port

为了更好的表示一台主机上服务进程的唯一性,规定用端口号port标识服务进程、客户端进程的唯一性。

端口号:

1️⃣ 端口号是一个2字节16位的整数
2️⃣ 端口号用来标识一个进程,告诉操作系统要把数据交给哪一个进程
3️⃣ 一个端口号只能被一个进程占用(同一个主机)

由上面可以知道:
IP地址(标识唯一主机)+ 端口号(标识唯一进程)能够标识网络上的某一台主机的某一个进程(全网唯一进程)。

那么网络通信的本质就是进程间通信。
而我们之前说过进程间通信的本质是看到同一份资源现在这个资源就是网络
而通信的本质就是IO,因为我们上网的行为就两种情况:1.把数据发送出去 2.接收到数据。

这里再思考一个问题,我们标识一个进程有pid,那么为什么还需要端口号呢?

1️⃣ 首先pid是系统规定的,而port是网络规定的,这样就可以把系统和网络解耦
2️⃣ port标识服务器的唯一性不能做任何改变,要让客户端能找到服务器,就像110,120样不能被改变。而pid每次启动进程pid就会改变。
3️⃣ 不是所有的进程都需要提供网络服务或请求(不需要port),但每个进程都需要pid。

虽然一个端口号只能绑定一个进程,但是一个进程可以绑定多个端口号。

上面我们说了IP有源IP和目的IP,而这里的port也有源端口号和目的端口号。我们在发送数据的时候也要把自己的IP和端口号发送过去,因为数据还要被发送回来。所以发送数据的时候一定会多出一部分数据(以协议的形式呈现)。

有人可能会问那么第一次怎么知道给哪个IP和port发送,这个不用担心,因为服务器内部已经内置好了。

三、TCP/UDP协议

我们用的套接字接口一定会使用传输层协议,我们不会绕过传输层去调用下面的协议。
在这里插入图片描述

而传输层的协议分为TCP协议和UDP协议。

对于TCP协议有几个特点:

1️⃣ 传输层协议
2️⃣ 有连接(正式通信前要先建立连接)
3️⃣ 可靠传输(在内部帮我们做可靠传输工作)
4️⃣ 面向字节流

对于UDP协议有几个特点:

1️⃣ 传输层协议
2️⃣ 无连接
3️⃣ 不可靠传输
4️⃣ 面向数据报

可靠和不可靠传输:
不可靠传输:比如说发送数据时出现了丢包的情况、或者数据被重复传递了(传递了多份)、或者网络出现了问题等等造成的后果就叫做不可靠。

所以传输层就是用来解决可靠性的一个协议。

但是为什么UDP不可靠传输我们还要有这个协调呢?
这里要注意可不可靠是一个中性词。可靠是需要成本的,往往在维护和编码上都比较复杂;
而不可靠没有成本,使用起来也简单。
所以要分场景使用

3.1 网络字节流

我们知道多字节数据存储的时候会有大小端问题。
小端:低权值的数放入低地址。
大端:低权值的数放入高地址。

所以现在就出现了这么一种情况:可能一个大端机用大端的方式发送数据到一个小端机。
现在跨网络我们也不知道数据到底是大端和小端

所以就有了规定:
网络中的数据都是大端。

发送数据的主机如果是大端机就不用管,如果是小端机就把小端转成大端再发送。
接收数据同理。

那么如何定义网络数据流的地址呢?

发送主机把发送缓冲区的数据按内存的地址从低到高进行发送。
接收主机把接收缓冲区的数据按内存的地址从低到高进行接收。
也就是先发送的数据是低地址,后发送的数据是高地址。
TCP/IP协议规定,网络数据流应采用大端字节序,即低地址高字节,不管这台主机是大端机还是小端机, 都会按照这个TCP/IP规定的网络字节序来发送/接收数据,如果当前发送主机是小端, 就需要先将数据转成大端; 否则就忽略, 直接发送即可。

而把数据转化成大端的工作不用我们自己来做,可以调用以下库函数做网络字节序和主机字节序的转换。

#include <arpa/inet.h>
// 主机序列转网络序列
uint32_t htonl(uint32_t hostlong);
uint16_t htons(uint16_t hostshort);
// 网络序列转主机序列
uint32_t ntohl(uint32_t netlong);
uint16_t ntohs(uint16_t netshort);

h表示host,n表示network,l表示32位长整数,s表示16位短整数。
主机是大端还是小端在函数内部会自己进行判断。
如果主机是小端字节序,这些函数将参数做相应的大小端转换然后返回。
如果主机是大端字节序,这些 函数不做转换,将参数原封不动地返回。

四、socket套接字

前面我们说过IP+端口号port标识了全网唯一的进程,我们IP+port就叫做套接字socket

4.1 socket常见接口

// 创建 socket 文件描述符 (TCP/UDP, 客户端 + 服务器)
int socket(int domain, int type, int protocol);
// 绑定端口号 (TCP/UDP, 服务器)
int bind(int socket, const struct sockaddr *address,
socklen_t address_len);
// 开始监听socket (TCP, 服务器)
int listen(int socket, int backlog);
// 接收请求 (TCP, 服务器)
int accept(int socket, struct sockaddr* address,
socklen_t* address_len);
// 建立连接 (TCP, 客户端)
int connect(int sockfd, const struct sockaddr *addr,
socklen_t addrlen);

可以发现函数参数里面有个叫sockaddr的结构体类型,这是什么呢?

4.2 sockaddr结构体

其实套接字有不少种类型。
常见的有三种:

网络套接字
原始套接字
域间套接字

网络套接字主要运用于跨主机之间的通信,也能支持本地通信,而域间套接字只能在本地通信。而原始套接字可以跨过传输层(TCP/IP协议)访问底层的数据。

这些套接字应用场景完全不同,所以我们想用就得用三套不同的接口。
而为了方便,设计者只使用了一套接口,就可以通过不同的参数,解决所有的通信场景。

这里举两个具体的套接字类型:sockaddr_insockaddr_un

struct sockaddr_in {
    
    
    short int sin_family;           // 地址族,一般为AF_INET
    unsigned short int sin_port;    // 端口号,网络字节序
    struct in_addr sin_addr;        // IP地址
    unsigned char sin_zero[8];      // 用于填充,使sizeof(sockaddr_in)等于16
};

struct sockaddr_un {
    
    
    sa_family_t sun_family;       /* AF_UNIX */
    char sun_path[108];    /* 带有路径的文件名 */
};

在这里插入图片描述
可以看到sockaddr_insockaddr_un是两个不同的通信场景。区分它们就用16地址类型协议家族的标识符。 我们两个结构体都不用,用sockaddr

比方说我们想用网络通信,虽然参数是const struct sockaddr *addr,但实际传递进去的却是sockaddr_in结构体(注意要强制类型转换)。
在函数内部一视同仁,全部看成sockaddr类型,然后根据前两个字节判断到底是什么通信类型然后再强转回去。

我们可以把sockaddr看成基类,把sockaddr_insockaddr_un看成派生类,构成了多态体系。

五、总结

1️⃣ IP+port可以标志全网唯一进程。
2️⃣ 套接字是一种通信机制(通信的两方的一种约定),而套接字的表示形式:IP+port
3️⃣ TCP和UDP的主要区别就是可靠传输和不可靠传输,而可不可靠是中性词。
4️⃣ 网络字节序列简单粗暴的规定为大端。
5️⃣ sockaddr用统一的接口方式来解决网络通信的大部分问题。



猜你喜欢

转载自blog.csdn.net/qq_66314292/article/details/130454865