SMP、NUMA、MPP、集群、分布处理的关系

集群的概念容易和一些概念(SMP 、NUMA、MPP、分布处理)相混淆，其主要区别在资源被共享和复制的级别不同。它们是按SMP、NUMA、MPP、集群、分布处理从最紧密到最松散的排列。

SMP(多处理系统)：这种系统是在一台计算机里有多个CPU,CPU之间的地位是平等的，它们共享内存空间和I/O设备。其工作方法是由操作系统负责将任务分解成多个并发进程，然后让其在不同的CPU上运行。

NUMA(非统一内存存取)：这种系统可以让多处理计算机的CPU比SMP更高效地共享本地内存，CPU可以更快速地存取单一的内存区域，不过如需要也可以用间接方式存取其他区域的内存，这种方法是让某些CPU在给定范围的物理内存中有更大的优先使用权。

MPP(巨型并行处理)：这种系统的节点都有自己的CPU，并有自己的专有资源。此种结构相对独立，但各个节点一般没有完全存取I/O的能力。

集群：集群系统是由独立的计算机组成，但有控制管理工具统一管理。

分布处理：它是比我们要构筑的集群系统更松散的连接，一般是任务在不同的地方完成，没有可以作为整体管理的单一实体。

以上的聚合方式有紧有疏，它们都有自己的适用范围，这里就不多说了，有兴趣可自己找些资料看，这里只是想让大家了解它所处的位置。

实现负载均衡的方法

集群的目的是共享和高效地利用资源，提供大型运算，提供负载均衡分配请求压力以及出现故障时能够进行切换实现高可用性。

限于篇幅，本文只对负载均衡的实现做些介绍(针对TurboLinux Cluster Server)。通过对相关软件的分析，实现集群负载的功能是通过流量管理实现的，具体有这样几种实现方法:直接路由(Direct forwarding)、网络地址转换(NAT)、隧道技术(Tunneling)。

直接路由(Direct forwarding)

当参与集群的计算机和作为控制管理的计算机在同一个网段时可以用此法，控制管理的计算机接收到请求包时直接送到参与集群的节点。优点是返回给客户的流量不经过控制主机，速度快开销少。

网络地址转换(NAT)

这种方法可能大家较熟悉，地址转换器有能被外界访问到的合法IP地址，它修改来自专有网络的流出包的地址，外界看起来包是来自地址转换器本身，当外界包送到转换器时，它能判断出应该将包送到内部网的哪个节点。优点是节省IP地址，能对内部进行伪装；缺点是效率低，因为返回给请求方的流量经过转换器。

隧道技术(Tunneling)

这种方式是在集群的节点不在同一个网段时可用的转发机制，是将IP包封装在其他网络流量中的方法，为了安全的考虑，应该使用隧道技术中的VPN,也可使用租用专线。

集群所能提供的服务是基于TCP/IP的Web服务、Mail服务、News服务、DNS服务、Proxy服务器等等，下面我们将就具体的产品TurboLinux Cluster Server 来实现一个进行负载均衡集群系统，用于提供Web和FTP的服务。

SMP和MPP

SMP的全称是"对称多处理"（Symmetrical Multi-Processing）技术，是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。它是相对非对称多处理技术而言的、应用十分广泛的并行技术。在这种架构中，一台电脑不再由单个CPU组成，而同时由多个处理器运行操作系统的单一复本，并共享内存和一台计算机的其他资源。虽然同时使用多个CPU，但是从管理的角度来看，它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上，从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中，系统资源被系统中所有CPU共享，工作负载能够均匀地分配到所有可用处理器之上。

在国内市场上这类机型的处理器一般以4个或8个为主，有少数是16个处理器。但是一般来讲，SMP结构的机器可扩展性较差，很难做到100个以上多处理器，常规的一般是8个到16个，不过这对于多数的用户来说已经够用了。这种机器的好处在于它的使用方式和微机或工作站的区别不大，编程的变化相对来说比较小，原来用微机工作站编写的程序如果要移植到SMP机器上使用，改动起来也相对比较容易。SMP结构的机型可用性比较差。因为4个或8个处理器共享一个操作系统和一个存储器，一旦操作系统出现了问题，整个机器就完全瘫痪掉了。而且由于这个机器的可扩展性较差，不容易保护用户的投资。但是这类机型技术比较成熟，相应的软件也比较多，因此现在国内市场上推出的并行机大量都是这一种。PC服务器中最常见的对称多处理系统通常采用2路、4路、6路或8路处理器。目前UNIX服务器可支持最多64个CPU的系统，如Sun公司的产品Enterprise 10000。SMP系统中最关键的技术是如何更好地解决多个处理器的相互通讯和协调问题。

MPP (Massively Parallel Processing)，大规模并行处理系统，这样的系统是由许多松耦合的处理单元组成的，要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源，如总线，内存，硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。

既然有两种结构，那它们各有什么特点呢？采用什么结构比较合适呢？通常情况下，MPP系统因为要在不同处理单元之间传送信息，所以它的效率要比SMP要差一点，但是这也不是绝对的，因为MPP系统不共享资源，因此对它而言，资源比SMP要多，当需要处理的事务达到一定规模时，MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定，如果通信时间比较多，那MPP系统就不占优势了，相反，如果通信时间比较少，那MPP系统可以充分发挥资源的优势，达到高效率。当前使用的OTLP程序中，用户访问一个中心数据库，如果采用SMP系统结构，它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势，可以这样说，如果操作相互之间没有什么关系，处理单元之间需要进行的通信比较少，那采用MPP系统就要好，相反就不合适了。

对于SMP来说，制约它速度的一个关键因素就是那个共享的总线，因此对于DSS程序来说，只能选择MPP，而不能选择SMP，当大型程序的处理要求大于共享总线时，总线就没有能力进行处理了，这时SMP系统就不行了。当然了，两个结构互有优缺点，如果能够将两种结合起来取长补短，当然最好了。

SMP、NUMA、MPP、集群、分布处理的关系

猜你喜欢