企业级调度器LVS

一、集群

1、Cluster概念

集群（cluster）就是一组计算机，它们作为一个整体向用户提供一组网络资源，这些单个的计算机系统就是集群的节点（node）。集群提供了以下关键的特性
特性：

可扩展性。集群的性能不限于单一的服务实体，新的服务实体可以动态的加入到集群，从而增强集群的性能。
高可用性。集群通过服务实体冗余使客户端免于轻易遭遇到“out of service”警告。当一台节点服务器发生故障的时候，这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。消除单点故障对于增强数据可用性、可达性和可靠性是非常重要的。
负载均衡。负载均衡能把任务比较均匀的分布到集群环境下的计算和网络资源，以便提高数据吞吐量。
错误恢复。如果集群中的某一台服务器由于故障或者维护需要而无法使用，资源和应用程序将转移到可用的集群节点上。这种由于某个节点中的资源不能工作，另一个可用节点中的资源能够透明的接管并继续完成任务的过程叫做错误恢复。

分类：

HA：高可用集群（High Availability Cluster）。

HA:故障恢复规格
MTBF:Mean Time Between Failure 平均无故障时间
MTTR:Mean Time To Restoration（ repair）平均恢复前时间
A=MTBF/（MTBF+MTTR） (0,1)：99%, 99.5%, 99.9%, 99.99%, 99.999%

LBC：负载均衡集群/负载均衡系统（Load Balance Cluster）
HPC：科学计算集群（High Performance Computing Cluster）/高性能计算（High Performance Computing）集群

集群设计原则

可扩展性—集群的横向扩展能力
可用性—无故障时间(SLA)
性能—访问响应时间
容量—单位时间内的最大并发吞吐量(C10K 并发问题)

具体设计原则

1、基础设施层面：
提升硬件资源性能—从入口防火墙到后端web server均使用更高性能的硬件资源
多域名—DNS 轮询A记录解析
多入口—将A记录解析到多个公网IP入口
多机房—同城+异地容灾
CDN(Content Delivery Network)—基于GSLB(Global Server Load Balance)实现全局负载均衡，如DNS
2、业务层面：
分层：安全层、负载层、静态层、动态层、(缓存层、存储层)持久化与非持久化
分割：基于功能分割大业务为小服务
分布式：对于特殊场景的业务，使用分布式计算

2、分布式

分布式应用-服务按照功能拆分，使用微服务
分布式静态资源--静态资源放在不同的存储集群上
分布式数据和存储--使用key-value缓存系统
分布式计算--对特殊业务使用分布式计算，比如Hadoop集群

分布式和集群联系和区别
集群：同一个业务系统，部署在多台服务器上。集群中，每一台服务器实现的功能没有差别，数据和代码都是一样的

分布式：一个业务被拆成多个子业务，或者本身就是不同的业务，部署在多台服务器上。分布式中，每一台服务器实现的功能是有差别的，数据和代码也是不一样的，分布式每台服务器功能加起来，才是完整的业务

分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。

大型网站，访问用户很多，实现一个群集，在前面部署一个负载均衡服务器，后面几台服务器完成同一业务。如果有用户进行相应业务访问时，负载均衡器根据后端哪台服务器的负载情况，决定由给哪一台去完成响应，并且一台服务器垮了，其它的服务器可以顶上来。分布式的每一个节点，都完成不同的业务，如果一个节点垮了，那这个业务可能就会失败

二、LVS

1、简介

LVS：Linux Virtual Server，负载调度器，内核集成
linux virtual server简称LVS，Internet的快速增长使多媒体网络服务器面对的访问数量快速增加，服务器需要具备提供大量并发访问服务的能力，因此对于大负载的服务器来讲， CPU、I/O处理能力很快会成为瓶颈。由于单台服务器的性能总是有限的，简单的提高硬件性能并不能真正解决这个问题。为此，必须采用多服务器和负载均衡技术才能满足大量并发访问的需要。Linux 虚拟服务器(Linux Virtual Servers,LVS) 使用负载均衡技术将多台服务器组成一个虚拟服务器。它为适应快速增长的网络访问需求提供了一个负载能力易于扩展，而价格低廉的解决方案。lvs的负载能力特别强，优化空间特别大，lvs的变种DPVS据说是lvs性能的几倍，由爱奇艺开发，并广泛用于爱奇艺IDC。其他负载均衡服务器还有nginx，haproxy，F5，Netscale
VS: Virtual Server，负责调度
RS: Real Server，负责真正提供服务
L4：四层路由器或交换机
阿里的四层LSB(Server Load Balance)是基于LVS+keepalived实现
工作原理：
title

当用户向负载均衡调度器（Director Server）发起请求，调度器将请求发往至内核空间。
PREROUTING链首先会接收到用户请求，判断目标IP确定是本机IP，将数据包发往INPUT链。
IPVS是工作在INPUT链上的，当用户请求到达INPUT时，IPVS会将用户请求和自己已定义好的集群服务进行比对，如果用户请求的就是定义的集群服务，那么此时IPVS会强行修改数据包里的目标IP地址及端口，并将新的数据包发往POSTROUTING链。
POSTROUTING链接收数据包后发现目标IP地址刚好是自己的后端服务器，那么此时通过选路，将数据包最终发送给后端的服务器。
VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS，根据调度算法来挑选RS

2、LVS技术术语

DS：Director Server。指的是前端负载均衡器节点。
RS：Real Server。后端真实的工作服务器。
VIP：Virtual IP，向外部直接面向用户请求，作为用户请求的目标的IP地址。
DIP：Director Server IP，主要用于和内部主机通讯的IP地址。
RIP：Real Server IP，后端服务器的IP地址。
CIP：Client IP，访问客户端的IP地址。

3、LVS工作模式和原理

（1）NAT模式

主要是修改目标IP地址为挑选出新的RS的IP地址。即请求进入负载均衡器时做DNAT，响应出负载均衡器时做SNAT
title
NAT模式工作原理

当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP。
PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链。
IPVS比对数据包请求的服务是否为集群服务，若是，修改数据包的目标IP地址为后端服务器IP，然后将数据包发至POSTROUTING链。此时报文的源IP为CIP，目标IP为RIP。
POSTROUTING链通过选路，将数据包发送给Real Server
Real Server比对发现目标为自己的IP，开始构建响应报文发回给Director Server。此时报文的源IP为RIP，目标IP为CIP。
Director Server在响应客户端前，此时会将源IP地址修改为自己的VIP地址，然后响应给客户端。此时报文的源IP为VIP，目标IP为CIP。

NAT特性

RIP最好是内网IP
RS的网关必须指向DIP。
DIP和RIP必须在同一个网段内。
请求和回应的报文都必须经过director，director容易成为瓶颈。
nat支持端口转发。
VS必须是Linux系统，RS可以是任意OS系统

（2）DR模式

LVS-DR：Direct Routing，直接路由，LVS默认模式,应用最广泛,通过为请求报文重新封装一个MAC首部进行转发，源MAC是DIP所在的接口的MAC，目标MAC是某挑选出的RS的RIP所在接口的MAC地址；源IP/PORT，以及目标IP/PORT均保持不变

首先用户用CIP请求VIP。
根据上图可以看到,不管是Director Server还是Real Server上都需要配置相同的VIP,那么当用户请求到达我们的集群网络的前端路由器的时候,请求数据包的源地址为CIP目标地址为VIP,此时路由器会发广播问谁是VIP,那么我们集群中所有的节点都配置有VIP,此时谁先响应路由器那么路由器就会将用户请求发给谁,这样一来我们的集群系统是不是没有意义了,那我们可以在网关路由器上配置静态路由指定VIP就是Director Server,或者使用一种机制不让Real Server 接收来自网络中的ARP地址解析请求,这样一来用户的请求数据包都会经过Director Servrer。
当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP。
PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链。
IPVS比对数据包请求的服务是否为集群服务，若是，将请求报文中的源MAC地址修改为DIP的MAC地址，将目标MAC地址修改RIP的MAC地址，然后将数据包发至POSTROUTING链。此时的源IP和目的IP均未修改，仅修改了源MAC地址为DIP的MAC地址，目标MAC地址为RIP的MAC地址
由于DS和RS在同一个网络中，所以是通过二层来传输。POSTROUTING链检查目标MAC地址为RIP的MAC地址，那么此时数据包将会发至Real Server。
RS发现请求报文的MAC地址是自己的MAC地址，就接收此报文。处理完成之后，将响应报文通过lo接口传送给eth0网卡然后向外发出。此时的源IP地址为VIP，目标IP为CIP
响应报文最终送达至客户端。

arp_ignore:定义接受到ARP请求时的相应级别
0：只要本地配置的有相应地址，就给予响应。（默认）

1：仅回应目标IP地址是本地的入网地址的arp请求。

2：仅回应目标IP地址是本地的入网地址，而且源IP和目标IP在同一个子网的arp请求。

3：不回应该网络界面的arp请求，而只对设置的唯一和连接地址做出回应

4-7：保留未使用

8：不回应所有的arp请求。

arp_announce：定义将自己地址向外通告是的通告级别;
0: 将本地任何接口上的任何地址向外通告

1：试图仅向目标网络通告与其网络匹配的地址

2：仅向与本地接口上地址匹配的网络进行通告

特性：
（1） Director和各RS都配置有VIP
（2）确保前端路由器将目标IP为VIP的请求报文发往Director
在前端网关做静态绑定VIP和Director的MAC地址
在RS上使用arptables工具
arptables -A IN -d $VIP -j DROP
arptables -A OUT -s $VIP -j mangle --mangle-ip-s $RIP
在RS上修改内核参数以限制arp通告及应答级别
/proc/sys/net/ipv4/conf/all/arp_ignore
/proc/sys/net/ipv4/conf/all/arp_announce
（3）RS的RIP可以使用私网地址，也可以是公网地址；RIP与DIP在同一IP网络；
RIP的网关不能指向DIP，以确保响应报文不会经由Director
（4）RS和Director要在同一个物理网络
（5）请求报文要经由Director，但响应报文不经由Director，而由RS直接发往
Client
（6）不支持端口映射（端口不能修败）
（7）RS可使用大多数OS系统

（3）Tunnel模式

lvs-fullnat：通过同时修改请求报文的源IP地址和目标IP地址进行转发
CIP --> DIP
VIP --> RIP

title

当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP 。
PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链。
IPVS比对数据包请求的服务是否为集群服务，若是，在请求报文的首部再次封装一层IP报文，封装源IP为为DIP，目标IP为RIP。然后发至POSTROUTING链。此时源IP为DIP，目标IP为RIP。
POSTROUTING链根据最新封装的IP报文，将数据包发至RS（因为在外层封装多了一层IP首部，所以可以理解为此时通过隧道传输）。此时源IP为DIP，目标IP为RIP。
RS接收到报文后发现是自己的IP地址，就将报文接收下来，拆除掉最外层的IP后，会发现里面还有一层IP首部，而且目标是自己的lo接口VIP，那么此时RS开始处理此请求，处理完成之后，通过lo接口送给eth0网卡，然后向外传递。此时的源IP地址为VIP，目标IP为CIP
响应报文最终送达至客户端

特性：

(1) VIP是公网地址，RIP和DIP是私网地址，且通常不在同一IP网络；因此，
RIP的网关一般不会指向DIP

(2) RS收到的请求报文源地址是DIP，因此，只需响应给DIP；但Director还
要将其发往Client

(3) 请求和响应报文都经由Director

(4) 支持端口映射
注意：此类型kernel默认不支持

4、LVS的调度算法

PVS scheduler #默认支持的算法
CONFIG_IP_VS_RR=m
CONFIG_IP_VS_WRR=m
CONFIG_IP_VS_LC=m
CONFIG_IP_VS_WLC=m
CONFIG_IP_VS_LBLC=m
CONFIG_IP_VS_LBLCR=m
CONFIG_IP_VS_DH=m
CONFIG_IP_VS_SH=m
CONFIG_IP_VS_SED=m

固定调度算法：rr，wrr，dh，sh

动态调度算法：wlc，lc，lblc，lblcr

固定调度算法：即调度器不会去判断后端服务器的繁忙与否，一如既往得将请求派发下去。

动态调度算法：调度器会去判断后端服务器的繁忙程度，然后依据调度算法动态得派发请求。
rr：轮询（round robin）
这种算法是最简单的，就是按依次循环的方式将请求调度到不同的服务器上，该算法最大的特点就是简单。轮询算法假设所有的服务器处理请求的能力都是一样的，调度器会将所有的请求平均分配给每个真实服务器，不管后端 RS 配置和处理能力，非常均衡地分发下去。这个调度的缺点是，不管后端服务器的繁忙程度是怎样的，调度器都会讲请求依次发下去。如果A服务器上的请求很快请求完了，而B服务器的请求一直持续着，将会导致B服务器一直很忙，而A很闲，这样便没起到均衡的左右。

wrr：加权轮询（weight round robin）
这种算法比 rr 的算法多了一个权重的概念，可以给 RS 设置权重，权重越高，那么分发的请求数越多，权重的取值范围 0 – 100。主要是对rr算法的一种优化和补充， LVS 会考虑每台服务器的性能，并给每台服务器添加要给权值，如果服务器A的权值为1，服务器B的权值为2，则调度到服务器B的请求会是服务器A的2倍。权值越高的服务器，处理的请求越多。

dh：目标地址散列调度算法（destination hash）
简单的说，即将同一类型的请求分配给同一个后端服务器，例如将以 .jgp、.png等结尾的请求转发到同一个节点。这种算法其实不是为了真正意义的负载均衡，而是为了资源的分类管理。这种调度算法主要应用在使用了缓存节点的系统中，提高缓存的命中率。

sh：源地址散列调度算法（source hash）
即将来自同一个ip的请求发给后端的同一个服务器，如果后端服务器工作正常没有超负荷的话。这可以解决session共享的问题，但是这里有个问题，很多企业、社区、学校都是共用的一个IP，这将导致请求分配的不均衡

lc：最少连接数（least-connection）
这个算法会根据后端 RS 的连接数来决定把请求分发给谁，比如 RS1 连接数比 RS2 连接数少，那么请求就优先发给 RS1。这里问题是无法做到会话保持，即session共享。

wlc：加权最少连接数（weight least-connection）
这个比最少连接数多了一个加权的概念，即在最少连接数的基础上加一个权重值，当连接数相近，权重值越大，越优先被分派请求。

lblc：基于局部性的最少连接调度算法（locality-based least-connection）
将来自同一目的地址的请求分配给同一台RS如果这台服务器尚未满负荷，否则分配给连接数最小的RS，并以它为下一次分配的首先考虑。

lblcr：基于地址的带重复最小连接数调度 (Locality-Based Least-Connection with Replication)
这个用得少，可以略过。

三、LVS部署

1、ipvsadm命令

ipvsadm是ipvs的管理器，yum源

ipvsadm语法：

ipvsadm COMMAND [protocol] service-address [scheduling-method] [persistence options]

ipvsadm COMMAND [protocol] service-address server-address [packet-forwarding-method] [weight options]

第一条命令用于向LVS系统中添加一个用于负载均衡的virtual server（VS）；第二条命令用来修改已经存在的VS的配置，service address用来指定涉及的虚拟服务即虚拟地址，server-address指定涉及的真实地址

程序包：ipvsadm
Unit File: ipvsadm.service
主程序：/usr/sbin/ipvsadm
规则保存工具：/usr/sbin/ipvsadm-save
规则重载工具：/usr/sbin/ipvsadm-restore
配置文件：/etc/sysconfig/ipvsadm-config

命令参数：

-A, --add-service：为ipvs虚拟服务器添加一个虚拟服务，即添加一个需要被负载均衡的虚拟地址。虚拟地址需要是ip地址，端口号，协议的形式。

-E, --edit-service：修改一个虚拟服务。

-D, --delete-service：删除一个虚拟服务。

-C, --clear：清除所有虚拟服务。

-R, --restore：从标准输入获取ipvsadm命令。一般结合下边的-S使用。

-S, --save：从标准输出输出虚拟服务器的规则。可以将虚拟服务器的规则保存，在以后通过-R直接读入，以实现自动化配置。

-a, --add-server：为虚拟服务添加一个real server（RS）

-e, --edit-server：修改RS

-d, --delete-server：删除

-L, -l, --list：列出虚拟服务表中的所有虚拟服务。可以指定地址。添加-c显示连接表。

-Z, --zero：将所有数据相关的记录清零。这些记录一般用于调度策略。

--set tcp tcpfin udp：修改协议的超时时间。

--start-daemon state：设置虚拟服务器的备服务器，用来实现主备服务器冗余。（注：该功能只支持ipv4）

--stop-daemon：停止备服务器。

-h, --help：帮助

增、改：
ipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]]
删除：
ipvsadm -D -t|u|f service-address
  service-address：

-t|u|f：
-t: TCP协议的端口，VIP:TCP_PORT
-u: UDP协议的端口，VIP:UDP_PORT
-f：firewall MARK，标记，一个数字
 [-s scheduler]：指定集群的调度算法，默认为wlc

增、改：ipvsadm -a|e -t|u|f service-address -r server-address [-g|i|m] [-w
weight]
删：ipvsadm -d -t|u|f service-address -r server-address
 server-address：
rip[:port] 如省略port，不作端口映射
 选项：
lvs类型：
-g: gateway, dr类型，默认
-i: ipip, tun类型
-m: masquerade, nat类型
-w weight：权重