网络虚拟化技术与NFV详解

一、网络虚拟化概述

1、网络虚拟化简介

现在越来越多的应用连接到网络,网络的需求和实现越来越复杂,在IT预算紧缩的情况下越来越需要利用虚拟化技术整合和简化网络资源。

网络虚拟化是一种新兴的网络技术,是多元化互联网体系结构的一部分,是解决当前互联网“僵化”问题的一种重要方案,能提高网络的公平性、扩展性、灵活性、移动性、安全性、吞吐量、高利用率和服务质量等方面具有重要的理论意义和实际意义,是下一代互联网的里程碑。

虚拟网络允许不同需求的用户组访问同一个物理网络,但从逻辑上对它们进行一定程度的隔离,以确保安全。在上世纪 90 年代,2 层交换是园区局域网的标志性特征,虚拟局域网 (VLAN) 是在一个通用基础设施中将局域网划分为不同工作组的标准。

除了VLAN,基础设施虚拟服务还包括虚拟路由器和交换机等。在虚拟路由中,相同物理交换机中的路由进程为每个应用环境单独提供路由功能。在虚拟交换中,两个物理交换机被视为一个设备,从而简化了代码维护与配置管理工作,但更重要的是,通过支持跨越不同物理交换机的端口通道和状态来提供物理冗余。

网络虚拟化可以实现以下功能:

  • 访问控制:确保能识别合法用户和设备,对其分类,并允许其接入获得访问授权的网络。
  • 路径隔离:确保各用户或设备都能高效地分配到正确、安全的可用资源集,如常见的 VPN 技术。
  • 服务保障:确保合法的用户和设备能访问相应的服务。

企业中存在不同级别的访问权限,几乎每个企业都需要解决方案来为客户、厂商、合作伙伴以及园区局域网上的员工授予不同的访问级别,必须对较大的机构进行分区。例如,在金融公司中,银行业务必须与证券交易业务分开。又比如非常大型的园区网络,如机场、医院或大学来说,过去,为保证不同用户组或部门间的安全性,就必须构建和管理不同的物理网络,这种做法既昂贵又难以管理。

凭借网络虚拟化解决方案,企业能在单一物理基础设施上部署多个封闭用户组,并在整个局域网中保持高标准的安全性、可扩展性、可管理性和可用性。凭借其虚拟化特性和对于集中服务的支持,帮助部署了此框架的企业更好、更高效地利用网络资产,即使对设备、系统、服务和应用的需求有所增长,也能实现成本节约。

2、网络虚拟化概念

其实网络虚拟化这个概念并不陌生,虚拟重叠网、MPLS、VPN、VLAN、定位符/标识符分离协议(Locator/ID Separation Protocol,LISP)、虚拟路由器,以及虚拟路由与转发(Virtual Routing and Forwarding,VRF)等都可以认为是网络虚拟化的某种表现形式,当前新兴的网络虚拟化概念从深度、广度和影响方面都远远超过了以上的技术。

网络虚拟化有如下概念:

1. 接口

业务提供商综合来自于一个或者多个InP的物理资源来构建自己的虚拟网络,因此每个InP必须提供事先定义的接口,使得业务提供商们能很好地与其之间沟通需求信息。同样,终端用户和业务提供商之间以及多个InP之间的接口也需要进行标准化定义。

2. 信令与引导

在建立虚拟网络之前业务提供商必须建立与基础设施供应商之间的信令链接,以传达自己的业务请求,因此在建立虚拟网络之前用于信令传递的网络连接本身是一个先决条件。

只要网络虚拟化环境还没有成熟到可以提供实现自身的信令传递的连接,信令就只能通过其他通信方式来传递,如通过当前的 Internet 来传递。此外,还必须具备一定的引导能力使得业务提供商能通过定制虚拟节点和虚拟链路来建立自己的虚拟网络。

3. 接入控制

为了确保满足QoS或SLA的要求,InP必须保证不会过量地为业务提供商分配资源,因此InP必须进行精确统计并运行接入控制算法以保证分配给虚拟网络的资源不超过底层网络的物理资源容量。

此外,为了在所有分布式虚拟网络中避免出现违反约束条件的情况,必须启用分布式预警机制,以确保业务提供商不能直接或者间接地出现为其分配资源量的“超负荷”情况。

4. 虚拟网络映射

由于虚拟网络的一个虚拟节点可以被映射到底层物理网络的任意一个物理节点,并且一条虚拟链路可能会对应于底层物理网络的多条物理链路,所以任意给定的虚拟网络存在多种向物理网络映射的方案。为了最大化共存的虚拟网络的数目,如何把业务提供商的虚拟网络请求映射到物理网络上显得非常重要。

然而带节点和链路约束的虚拟网络请求的最优映射问题是NP的一个难问题,即便在事先给定VN请求的情况下也是如此。因此在大多数的研究中采用启发式算法来求解虚拟网络的优化映射问题,现有的启发式解决方案可以分为两大类。即离线VN映射问题解决方案和在线VN映射问题解决方案,在离线问题中所有业务提供商的VN请求是事先已知的。

5. 资源调度

在创建虚拟网络时业务提供商往往要求为虚拟节点和虚拟链路所分配的资源量得到特定的保障,具体而言,业务提供商要求虚拟节点的中央处理器资源、磁盘和内存需求量的下界确保得到满足。

对于虚拟链路,则希望在从尽力而为的服务到固定丢包率和专用物理链路的延迟特性这些方面得到保证。在满足业务提供商的这些特定的资源需求的前提下,为每个业务提供商建立资源独占和相互隔离的虚拟网络需要有适当的资源调度策略和算法来对InP的资源进行调度管理。

6. 抗毁

底层物理网络部件的失效给网络虚拟化环境带来新的问题,任何底层网络部件的失效都会直接影响映射到其上的虚拟网络的虚拟部件(虚拟节点或虚拟链路)。

例如,某条物理链路的失效会导致所有经过它的虚拟链路的失效,物理节点失效也是如此,因此这类故障的检测、隔离、预防和恢复都是虚拟网络抗毁研究中的开放且具有挑战性问题。

7. 运行和管理

网络的运行和管理始终是网络运营商所面临的一大挑战,网络虚拟化环境同样面临这样的问题,小小的一个配置错误可能会使得网络的全部功能丧失殆尽。为了防止这种情况的出现,网络运营商每年在网络运行和管理方面投以巨资,以确保网络的正常运行。

在虚拟网络环境中对不同参与者的责任进行划分,可以增加网络的可管理性和减小出错的范围。由于虚拟网络可能跨域映射在多个底层物理网络之上,因此其上承载的应用也必须能够从参与构建虚拟网络的InP处汇集信息。而这些InP的管理模式往往不同,甚至相互冲突。

此外,网络虚拟化技术还包括资源和拓扑发现、虚节点和虚链路、命名和寻址、移动性管理、安全和隐私、互操作性问题,以及网络虚拟化的经济学问题。

一个典型的网络虚拟化拓扑的结构:

网络虚拟化通过虚拟化技术对共用的底层基础设施进行抽象并提供统一的可编程接口,将多个彼此隔离且具有不同拓扑的虚拟网络同时映射到共用的基础设施上,为用户提供差异化服务。

换句话说,网络虚拟化是在底层物理网络和网络用户之间增加一个抽象层,该抽象层向下对物理网络资源进行分割。向上提供虚拟网络,把网络层的一些功能从硬件中剥离出来,并使用基于软件的抽象从物理网络元素中分离网络流量。抽象隔离了网络中的交换机、网络端口、路由器及其他物理元素的网络流量,每个物理元素被网络元素的虚拟表示形式所取代,管理员能够对虚拟网络元素进行配置以满足其独特需求。

网络虚拟化将物理网络资源抽象为虚拟节点或者虚拟链路之类的虚拟资源,然后由这些虚拟资源组建抽象的网络实例,即虚拟网络。这些虚拟网络需要相互隔离,在这些虚拟网络中可以部署特定的应用,以及特定应用所要求的网络体系。所以网络虚拟化是提供一个可以部署新的网络体系的平台,而不是一个取代现有互联网体系结构的新的网络。

网络虚拟化技术是让一个底层物理网络能够支持多个逻辑网络,虚拟化保留了网络设计中原有的拓扑与层次结构、数据通道和相关服务。从终端用户的角度而言,如同体验和独享物理网络一样,多个创建的独立虚拟网络可以同时共存且互不影响。虚拟化网络拓扑支持底层多个不同物理资源的聚合,使其看起来像一个单独的资源,从而实现功能扩展;同时网络虚拟化技术更加高效地利用了网络资源(如物理空间和设备容量等),并简化了网络运营与维护的复杂程度。

网络虚拟化是一个过程,也是一系列技术的统称。采用基于网络虚拟化技术,相关物理网络资源被逻辑划分和组合,并在此基础上被调度和管理。采用网络虚拟化可以将多个物理网络抽象为一个虚拟网络,或者将一个物理网络分割为多个逻辑网络,或者在虚拟机之间创建纯软件的网络。

网络虚拟化一般分为两类,一类是对外部网络环境的虚拟化,另外一类是对服务器主机内部的网络虚拟化,如网卡等设备的虚拟化。

网络虚拟化是将多个硬件或软件网络资源及相关的网络功能集成到一个可用的软件中统一管理和控制的过程,并且对于网络应用而言,该虚拟网络环境的实现方式是透明的。主要包括3个方面,一是物理主机内部网络虚拟化;二是对网络交换设备的虚拟化;三是对网络虚拟化的统一管理。

在一套物理网络中采用虚拟技术划分出多台虚拟交换机或多个相互隔离的逻辑网络,是1∶N的虚拟化。将多种物理网络设备虚拟整合成一台逻辑设备或多条物理链路聚合成一条逻辑链路,即简化网络架构,是 N∶1虚拟化,如图所示。

通过网络虚拟化可实现弹性、安全、自适应和易管理的基础网络,充分满足服务器虚拟化等虚拟技术对基础网络带来的要求,达到提高虚拟服务器的运行效率和业务部署灵活的目的。

随着“IP over everything(IP一切)和everything over IP(IP为王)”理念的深入,IP协议成为网络规划和建设的事实标准,因此目前网络虚拟化技术研究主要集中在IP网络虚拟化领域。IP网络虚拟化的范围包括VLAN、VPN、虚拟路由器、逻辑路由器、重叠网、个人对个人(Person to Person,P2P)和分布式网络等,不一而足。

从技术角度看,IP网络虚拟化可分为网元虚拟化、链路虚拟化、隧道虚拟化和互联虚拟化等。从应用角度看,IP网络虚拟化又可分为资源提供虚拟化、资源管理虚拟化和运营维护虚拟化等。为了向用户提供端到端的资源虚拟化服务,虚拟化的网络又分为虚拟化服务、虚拟化通道和虚拟化设备。

这些技术成果,一方面为网络虚拟化提供了技术基础,另一方面也将在网络虚拟化中获得进一步发展。 

3、网络虚拟化基本特征

网络虚拟化具有以下一些特征:

1. 独立于网络硬件

网络虚拟化平台必须能够在任意网络硬件上运行,这很像x86服务器hypervisor能够在任意厂商的服务器上运行一样,这种独立性意味着物理网络可以是硬件厂商产品的任意组合。随着时间的推移,能够更好地支持虚拟化和商品化的更新的架构会越来越普及,从而进一步改善云的资本效益。

2. 忠实复制物理网络服务模式

一个网络虚拟化平台必须能够支持今天任何一个物理环境下运行的任意工作负载,而为了做到这一点,它必须完全重建2层和3层的语义环境,包括支持广播和组播;除此之外,它还必须能够提供现有网络所提供的高等级网络服务,诸如访问控制表(Access Control List,ACL)、负载均衡及广域网(Wide Area Network,WAN)优化等。

同样重要的是虚拟网络解决方案可完全虚拟网络地址空间。一般来说,虚拟网络要么是从物理环境迁移而来,要么是与物理网络相集成的,改变虚拟机(VM)的现有地址没有可能。因此重要的是虚拟网络环境不能命令或者限制虚拟网络中所使用的地址,并且应允许各虚拟网络间相互覆盖IP和媒介访问控制(Medium Access Control,MAC)地址。

3. 遵循计算虚拟化的运营模式

计算虚拟化的一个关键特征就是能够把一台虚拟机作为一个软状态来处理,即该虚拟机可以迁移、暂停、重用、快照,以及回退到之前的配置。为了在虚拟环境中实现无缝集成,网络虚拟化解决方案必须能够支持同样的控制和灵活性。

4. 较好的共存和兼容性

共存关系是指不同 SP 的多个虚拟网络可以全部或部分部署在相同或者不同 InP 提供的底层物理网络之上。

网络虚拟化平台还能够与全系统服务器共同工作,并具备跨任意网络底层和服务环境和控制虚拟化网络连接性的能力,这种公平和完全非阻塞的任意到任意(Any-to-any)连接范式改变的优势如下。

  • 更高效地利用现有网络投资。
  • 减少新的和3层架构创新的成本和管理复杂度。
  • 工作负载可从企业向云服务环境迁移。

5. 强隔离性

VPN在边缘网络隔离虚拟网络,在公用互联网上的数据传输仍然依赖传输机制;此外,PlanetLab切片中的多台虚拟机由于共享1个IP地址,因此只能通过在IP数据包中携带数据,以达到复用端口的目的。这些隔离并不彻底;相反地,网络虚拟化具有强隔离性。

例如,使用通用路由协议封装以太网帧,以及通过复用 MAC 地址提供虚拟的以太网链接实现彻底的隔离。在这种情况下,即使共用基础设施中的某个虚拟网络遭受攻击,共存的其他虚拟网络也不会受到任何影响;此外,虚拟化的链路层为虚拟网络提供了独立的编程能力,可以不依赖IP技术而自定制协议。

网络虚拟化平台在维持资源整合的同时还要提供根据监管规则所需的隔离,以及与计算虚拟化同样的安全保障。和计算虚拟化一样,网络虚拟化平台可在各个虚拟网络之间提供严格的地址隔离(即一个虚拟网络不能非有意地访问另一个虚拟网络);同时也在虚拟网络和物理网络之间进行地址隔离,这一性质也让物理网络无法成为攻击目标,除非虚拟平台自身遭到破坏。

6. 高扩展性

通过虚拟化技术网络虚拟化将底层基础设施抽象为功能实体,为上层屏蔽了底层基础设施之间的差异,有利于异构网络的互联互通;此外,网络虚拟化为上层应用提供了端到端的访问权、控制权及统一的编程接口,有助于新技术的实现。

在单一数据中心中云推动租户、服务器及应用规模的急剧增长,然而现有网络仍然受限于网络的物理限制,尤其是受到VLAN数量的限制(仅限于4 096个)。VLAN在服务器虚拟化极大地扩展了对虚拟隔离环境数量的需求之前设计出来,网络虚拟化能够支持相当大规模的网络部署。例如,数万个,甚至数十万个虚拟网络。这不仅允许更大量租户的存在,而且还可支持诸如灾备和数据中心租用等关键服务。

虚拟网络解决方案还不会在网络中产生任何阻塞点或失效点,粗略地来讲这意味着解决方案的所有组件都能够完全分布式自组织网络,所有网络路径均可以支持多路径和故障切换功能。

7. 快速部署

传统互联网由多个运营商构成,在互联网上大范围地部署一个新的协议需要多个运营商的协作。然而由于多个运营商的利益导向不一致,因此跨域部署并不是一件简单的事情。

网络虚拟化通过租用虚拟资源切片的方式在多个自治域上构建虚拟网络,本身具备大范围快速部署的特性。

8. 可编程网络预配置与预控制

传统上网络都是一次配置一种设备,尽管这一过程可借助脚本(模仿单个配置)来加快。现有的方法无法加快网络配置,易出现错误,而且可能会因为错误的输入而产生安全漏洞。在大规模云部署环境中这样的过程既提高了风险程度,也提高了手动配置的成本,从而影响服务的速度和赢利能力。

网络虚拟化解决方案能全盘控制所有的虚拟网络资源,并可通过编程手段来管理这些资源。这就是说配置可在服务等级上发生,而不是在要素等级上发生。这样可以极大地简化配置逻辑,避免由于物理网络节点失灵而发生任何中断。可编程API能提供对虚拟网络的全盘管理和配置,不仅要在云的时序规模上支持动态配置,而且还有联机引入和配置服务的能力。

9. 嵌套关系

虚拟网络可以派生新的虚拟网络,基于一个现有的虚拟网络创建一个或多个新新的虚拟网络。新创建的虚拟网络和原虚拟网络的层次关系可以被描述为虚拟网络的嵌套关系,这种特性也被称为“虚拟网络的父子关系”。例如,下图中SP1在InPl提供的底层网络之上创建了一个虚拟网络。

同时,SP1 将其创建的虚拟网络的一部分未使用的资源租用给 SP3,可以将SP1看做SP3的虚拟InP。这种层次结构可以持续进行,直到创建的子虚拟网的累计开销大于当前虚拟网络中可以使用的资源容量。

10. 继承关系

虚拟网络可以继承其父网络的属性,这种特性被称为“继承关系”,继承关系表明父网络的属性可以自动传递给其子网络。

例如,在下图中 SN2 自身含有的属性可以自动传递给VN2。继承关系也允许SP在将其创建的子网络转售给其他SP时,充分使用其网络具有的特有属性来提高网络价值。

11. 多宿关系

多宿关系是指一个底层网络的节点上可以同时创建同一个虚拟网络的多个虚拟节点,如在一个大型复杂的网络环境中需要使用多台逻辑的路由器来支撑不同的业务和功能。

SP可以在逻辑上重排自己的网络结构,简化虚拟网络的管理,并提升网络运行维护的效率;另外,多宿关系也有助于创建网络测试床。

例如,在下图VN1中给出了一个多宿关系的例子,多宿关系通常由SP使用虚拟资源的可编程接口实现。

12. 促进创新

传统互联网在取得巨大成功的同时,越来越难以满足业务多样化的需求;此外,传统互联网的僵化特性要求新的网络协议标准和基础设施向后兼容。从而严重阻碍了创新,网络虚拟化的出现改变了这一现状。在网络虚拟化环境中底层基础设施可摆脱以往互联网基础架构的束缚,以多样化的联网方式组建自定制的网络体系结构,促进互联网的创新和演进。

可见网络虚拟化不但改进资源供应、加速运行速度和自动化、节省空间并且降低功耗、布线和管理成本,实现快速部署和扩展。而且还能提高资源利用率,使用的灵活性、安全性、可靠性、互操作性及投资保护。还能大幅度节省企业的开销,简化企业网络的运维和管理。确保能识别合法用户和设备,以及各用户或设备都能高效地分配到正确且安全的可用资源集,使得合法的用户和设备能访问相应的服务,以满足新型应用程序的要求。

通过虚拟化可以快速地定制访问和网络选项,以及实现非常方便的资源调配(如端口、处理能力和转发表的调配)、资源共享(电源和转发能力的共享)并提高抗故障能力(把风险分散到多个物理实体中),甚至可以和服务器配合实现按需配置的虚拟数据中心。

物理网络可以被组合成一个单一的虚拟网络来整体简化管理,使网络更易管理且更动态,这也是云计算技术的一个重要发展趋势。

如服务端虚拟化一样,网络虚拟化会增加复杂性、性能开销和通信问题,并且增大物理和虚拟交换机之间的网络接口卡密度和网络流量,还会对管理员的技能提出更高的要求。 

4、网络虚拟化技术发展与挑战

网络虚拟化发展的外在动力是如下应用需求:

  1. 网络经营模式:网络运营商开发面向第三方的VN租赁、出售和服务业务,网络是运营商的关键资产,网络虚拟化有望为运营商提供网络经营新的增长点。
  2. 差异化网络服务:通过不同的 VN,运营商可以为用户提供差异化服务,根据用户需求提供满足用户要求的网络。
  3. 网络共享:在共用的网络基础设施上运营商利用VN实现不同网络而互不影响,降低组网成本。
  4. 异构网络技术共存:虚拟网络为不同网络技术提供共存的网络平台。
  5. 社会效益推动:网络虚拟化将提高网络资源利用效率,降低组网成本和资源消耗,符合节能减排和低碳经济发展的趋势。

尽管网络虚拟化技术在互联网体系结构的不同层级都有了较为成熟的一些技术实现方案,但是这方面的研究仍然面临如下有待克服的技术难题。

1. 接口(Interfacing)技术

基础设施提供者必须依据某种标准提供一种良好定义的接口,使得 SP 可以与其通信;同时,这种标准化接口需要使得具有可编程特性的网络诸多元素对 SP 有效。

同理,终端用户与SP之间也存在这样的接口定义与实现问题。

2. 信令与初始化(Signaling and Bootstrapping)技术

在创建一个虚拟网络之前,SP需要拥有与底层网络设施供应商的网络连接,以便能够发起相应的请求。相关技术实现必须要有自举能力,从而允许 SP 通过合适的接口来定制分配给它的虚拟节点和链路。因此至少需要另外一个网络提供连接来专门处理这些问题,或者使用带外机制(out-of-band mechanism)执行信令和初始化过程。

3. 资源与拓扑发现(Resource and Topology Discovery)技术

为了合理分配 SP 的资源请求,底层硬件供应商需要能够确定所管理网络的拓扑结构,以及相应的网络元素的状态(如物理节点及互联关系、节点和链路的剩余容量等)。

另外,从SP的角度而言,一个虚拟网络需要能够发现与其共存的其他虚拟网络的存在及其拓扑结构,这样不同的虚拟网络之间就能够通过通信、交互与合作机制提供更为广泛的服务。

4. 资源分配(Resource Allocation)技术

虚拟节点和链路相关约束条件下的资源分配问题,即虚拟网络的嵌入问题可以表示为混合整数规划问题(Mixed Integer Programming,MIP),解决MIP问题属于典型的非确定性多项式(Nondeterministic Polynomial,NP)这个难题。

尽管各种约束条件和预期目标使得该问题的计算异常棘手,但现有网络拓扑的多样性还是给这方面的研究留下了充足的试验空间;另外,涉及多个底层硬件供应商的虚拟网络嵌入问题目前仍处于空白阶段。

5. 准入控制和使用策略(Admission Control and Usage Policing)

一方面,在建立虚拟网络时,SP对虚拟节点的属性和虚拟网络的特征要求有一些特定的保证。

另一方面,底层硬件供应商也需要进行精确的审计。从而实现准入控制与分布式的使用策略,保证虚拟网络分配与使用的资源不会超过底层硬件资源总量。

6. 虚拟节点与虚拟链路实现(Virtual Nodes and Virtual Links)技术

如何在单个物理节点上容纳更多的虚拟节点,并保证其功能实现,以及拥有灵活的配置方法都是虚拟节点实现的关键议题。对于链路的虚拟化,隧道机制在考虑最小封装和复用的前提下同样可以考虑引入虚拟网络实现过程中。

7. 命名与寻址(Naming and Addressing)技术

不同地址空间的相互映射是计算机网络领域存在已久的研究内容,虚拟网络的引入使得该问题变得更加复杂。

在虚拟化网络环境中命名与寻址应该解耦才能使得终端用户使用单个实体身份很方便地从一个SP转向另一个SP,而对于共存的多个异构型的虚拟网络,命名与寻址的复杂度也会加剧。

8. 移动性管理(Mobility Management)技术

虚拟化网络环境必须能够通过一定的技术方案很好地支持设备的移动性,而非采用互联网现有的临时性解决办法。

另外,在特定时刻找到任意一个设备的确切位置并进行相应的报文路由对虚拟网络而言是一个更为复杂的问题。

网络虚拟化发展主要关注以下几方面:

  1. 网络资源虚拟化:不仅包括节点和链路的虚拟化,也要研究有线和无线技术的虚拟化,并且提供一个有效的标准接口用于管理和控制这些虚拟资源。
  2. 虚拟网络的部署:包括可用资源的发现,实现按需部署,并且在网络需求改变的情况下进行动态调整的能力。
  3. 虚拟化管理:一旦网络建成,如何在网络的生命周期内实现资源的控制、调整及重分配等功能也是需要研究的重点。

网络虚拟化示意图:

目前虚拟化技术在网络技术、协议层次和虚拟粒度上出现如下3种趋势。

  • 粒度越来越细

早期的虚拟化项目只关注在连接的虚拟节点或在物理节点之间部署虚拟链路,以实现虚拟网的隔离。

最近的研究如GENI和4WARD等不仅仅实现节点或链路的虚拟化,更关注通过有效的完整隔离实现服务器、交换机和网络管理平面的虚拟化。

  • 层次越来越低

虚拟网络的研究存在不同的分层,从物理层到应用层。虚拟化的层次越低,虚拟网络对更高层的协议越来越不可知,其灵活性将更高。

  • 越来越关注网络的异构环境

随着移动和无线设备数量的增加和专门网络技术的出现(如传感器网络),网络虚拟化尝试在一个集成环境下兼容多种异构网络技术,更关注平滑不同技术的差异。 

网络虚拟化目前研究项目:

5、网络虚拟化应用前景

任何技术发展的最终决定力量都是其应用前景,网络虚拟化技术也不例外。随着工业化与信息化融合进程的快速推进,以及物联网和云计算等技术的规模发展,IP网络规模、业务规模和用户规模等都将进一步扩大。

原来较为粗放的网络运营模式难以为继,集约化成为网络运营的重要趋势。终端融合、业务融合及网元融合促进IP网络向融合方向演进,而在此过程中有效提升网络与业务的协同能力并打造智能管道,则成为IP网络建设和优化的重点。

网络虚拟化将在打造融合型、智能型和集约化网络过程中大有作为。

1. 打造优质高效彩色管道

提供优质高效的数据传送通道是 IP 网络的基本功能,在融合承载条件下各类业务对 IP网络提出不同的承载需求。在资源有效利用前提下,I P网络应能够针对不同业务需求提供具备安全区隔离能力和满足业务SLA要求的承载服务。

网络虚拟化在网络资源共享及聚合方面的优势有目共睹,因此在打造优质高效彩色管道方面可以充分利用网络虚拟化技术,通过网络优化与能力提升为客户提供优质高效、差异化和综合性的网络服务。

2. 提升网络与业务协同性

在融合承载条件下网络与业务的协同性是IP网络集约化运营的基础,现阶段网络与业务协同在强化承载控制层与IP网元交互能力的基础上进行。由于现有网元与承载控制层之间缺乏标准接口,因此只能针对特定业务实现初步的网络与业务协同,难以在大范围内实现网络与业务的有效协同。

虚拟化技术可基于物理网元软件与硬件的解耦合实现网络转发层与控制层的进一步分离,推动了相关逻辑单位封装的标准化。从而为承载控制层与IP网元之间的接口标准化提供了更有利的条件,为更大范围的网络与业务协同奠定了基础。

3. 有效拓展业务空间

现阶段基于虚拟化技术的网络型业务如 MPLS VPN 和虚拟专用局域网业务(Virtual Private LAN Service,VPLS),以及虚拟租用线路(Virtual Leased Line,VLL)等)非常成熟。

网络虚拟化加速了IP网络计算、存储与传送功能的融合进程,云桌面、云终端和云存储等技术的出现使网络业务不再受终端等条件限制,进一步丰富了网络业务类型并拓展了业务空间。

4. 推进网络绿色节能

绿色节能是实现IP网络可持续发展的必要条件,网络运营过程中必须保证单位能耗尽可能低。网络虚拟化技术可通过资源共享等举措结合网络资源调度管理的智能化实现网络资源及业务资源的有效利用和优化,促进网络能效的提升并推动网络可持续发展。

网络虚拟化正在对互联网和通信运营产生深刻的影响,这些影响在可以预期的未来有逐步扩大的趋势。

网络虚拟化至少在以下几个方面对互联网本身产生深刻影响:

  • 互联网端到端透明的理念:网络虚拟化的发展将在某种程度上改变互联网端到端透明的理念。
  • 互联网网络服务提供方式:网络虚拟化将使得利用互联网提供差异化网络服务成为可能,虚拟网络可以为不同用户提供不同资源保障,满足多样化网络需求。
  • 互联网变得比以前复杂:随着虚拟化的深入,具有复杂控制管理能力的路由器被引入网络之中。有的具有可编程性,提供虚拟路由器功能,这样网络中间节点复杂性将大大增加。
  • 互联网能够适应更多需求:传统互联网对于实时性业务、移动性强的业务和安全性要求高的业务支持能力较差,网络虚拟化的引入将改变这一现实。
  • 新的商业模式:网络虚拟化可能带来互联网新的商业模式。

从网络主体的角度看,网络虚拟化对于通信运营的影响可分为如下3个层面。

  • 网络虚拟化为运营商带来了新的挑战和机遇:网络虚拟化将对传统运营商业务带来冲击,一些在以前专网上的业务有望通过虚拟网络来承载,网络虚拟化下的建网组网方式和网络运营方式也对运营商提出了新的要求。与此同时,网络虚拟化又为运营商带来新的机遇。通过虚拟网络技术运营商可以有效地控制网络管道,改善网络安全和服务质量,为用户提供差异化服务。从而实现可赢利的高层业务和应用,具有极大的商业前景。
  • 网络虚拟化为通信运营带来新的增长点:网络虚拟化有望缓解,甚至解决现有的限制新的应用和业务推广的瓶颈问题,它将为用户定制网络和虚拟专用网络等业务提供广阔的发展空间,这些都将有力地促进通信经营活动新的发展。
  • 网络虚拟化为用户提供更多的通信信息体验和更加多样化的选择:网络虚拟化有可能为用户提供更加符合需求的网络,并将有力地推动云计算、分布式网络和泛在网络等的发展。最终将为用户提供更加完善和合适的通信信息服务,满足用户的需求。

随着低碳信息经济的发展和云计算及泛在网络等技术和应用的兴起,网络虚拟化必将在未来网络研究和应用中扮演重要角色,也将对现有运营商市场产生重要的影响。而网络虚拟化的健康发展也离不开标准化和有效监管,这将是未来一个时期亟待研究的内容。

二、网络虚拟化模型

1、虚拟网络的运营主体模型

网络虚拟化实现了物理网络和用户网络的相互分离,目前互联网的参与者主要包括一般用户(使用网络业务的企业和个人)、业务提供者(SP)和网络业务提供者(Network Service Provider,NSP)。

NSP通过自己(或租借)的基础物理网络为一般用户和SP提供网络接入服务,是一个比特管道。在网络虚拟化下它有可能进一步分工,形成新的运营主体,如图所示。

1. 物理网络提供者(Physical Infrastructure Provider,PIP)

提供网络基础设施;拥有网络节点和物理链路等资源,通过 P(物理)接口管理自己的物理设备和物理网络,支持资源分片实现和虚拟链路向物理链路的映射。

2. 虚拟网络提供者(Virtual Network Provider,VNP)

通过 V(虚拟)接口与虚拟网Vm 连接,并通过 VP(虚拟与物理)接口向一个或多个 PIP 申请(租赁/购买)资源,根据VNO的需求组织这些资源构成虚拟网络拓扑。
这个过程可能会在虚拟网络节点安装不同的软件实施不同的拓扑算法和网络协议。

3. 虚拟网络运营者(Virtual Network Operator,VNO)

通过OV(运营与虚拟)接口向VNP申请用户网络,通过O(运营)接口管理、维护用户网络Val。

上述3类网络主体并不是互斥的,PIP、VNP和VNO可以是不同或相同的运营商或机构。以GENI为例,其Aggregates/Components对应PIP;Clearinghouse对应VNP;Operations&Management(O&M)对应VNO的部分功能。

从SP和一般用户的角度看,VNO为其隔离一切下层网络和经营主体的细节。

用户网络可基于 IP,也可基于其他技术,多个相互独立的用户网络共同“Overlays”在 PIP 的物理网络之上。用户直接或间接地和PIP的物理网络相互连接(上图中的1),但其对应的运营主体却是VNO。用户使用的是VNO的网络(上图中的2),VNO是真正面向用户的网络提供者,可以为用户提供个性化的网络服务;网络业务则继续由SP提供(上图中的3)。

运营主体的这种分化将改变目前网络经营模式,对网络运营商拓展业务,改变现有网络服务提供方式和赢利模式来说具有重要意义。 

2、网络虚拟化分层模型

在网络虚拟化分层模型中包含3层结构,即基础设施层、虚拟化重叠层及服务层,如下图所示。

基础设施层由众多基础设施提供者(InP)组成,每个InP包括大量可编程的支持虚拟化的节点,如路由器及终端服务器等。InP 通过虚拟化资源统一描述方式将底层资源的细节屏蔽,为上层提供统一的虚拟资源抽象。

该层基于分布式智能多代理系统,由一系列分布的域管理器组成。每个域管理器对应相应的一个 InP,负责资源的探测和抽象、虚拟资源的分配和调度,以及虚拟网的创建和实例化。服务层由众多相互隔离的虚拟网组成,这些虚拟网由用户或者用户代理发起的请求驱动,由域管理器进行调度、分配和创建完成特定的功能。这些特定的功能主要包括两大方面,即新型网络协议和架构的测试验证,以及针对特定的服务需求实现特定的虚拟专网。

虚拟化层中域管理器之间的协同和交互可以采用集中或分布式的管理方式,按照特定的协议交互信息,以获得相关域管理器的资源信息。每个域管理器内部由一系列相应的功能模块构成,包括资源发现、情境建模、资源映射及特定的策略库等,如图所示。 

资源发现主要是确定其管理网络的拓扑和相应网络元素的状态,更进一步,邻近的域管理器也同样共享状态信息,在网络之间建立链路实现域间虚拟网络的构建。

虚拟资源映射主要是按照策略库中的约束将虚拟节点和虚拟链路分配到相应的物理的节点和路径上,目前主要有静态分配和动态分配两种方式。 

3、虚拟网络的结构模型

1. 水平模型和垂直模型

目前网络虚拟化实现主要有两个思路,一是网络,即Overlays方式,通过隧道穿越核心网络构建 VN;二是系统,即采用虚拟路由器在核心网上提供虚拟路由功能。

从本质上看,这也是Overlays的思路,不过VN是“Overlay”在物理节点虚拟之上。这两种思路分别对应网络虚拟化的两个模型,即水平模型和垂直模型,如图所示。

水平模型主要指采用虚拟技术实现自治网络的互联,即多个物理网络构成一个虚拟网络。从虚拟化的观点看,目前互联网是典型的水平模式。它由一些互联的网络单元组成,许多网络单元通常都是相对独立的自治系统。各自治系统可能采用不同的网络构架,并通过隧道方式相互连接。

垂直模型主要是在单个物理网络上实现多个逻辑网络,通过虚拟技术在共享的物理网络上实现多种网络架构建网或多个网络,每种架构或网络对应一个独立的逻辑网络。

目前,这两种模式正朝着相互融合的方向发展。从大的范围看,全球性的网络一般由广泛分布的一个个自治网络系统构成,而在自治网络内部可以通过资源虚拟共享实现多个逻辑网络。随着网络虚拟化程度的深化,未来还有可能在多个物理网络的更大范围内通过垂直模式构建不同虚拟网络。 

2. 单个自治网络内部VN结构

底层资源层(Substrate Resource Layer,SRL):完成硬件资源的虚拟化,将物理网络节点(图中n)的资源分割成小的切片。这些切片组成虚拟网的基本元素(虚拟节点),每个切片在虚拟网中独立完成节点功能,即虚拟节点(Virtual Note,VN)。

单个网络内部VN结构:

根据功能不同,虚拟网络中的路由器节点分为如下4类。

  • 边缘节点:位于物理网络边缘,直接或通过第三方提供的接入网与用户连接,该节点的另一个重要特征是按地理位置分布。
  • 核心VN节点:支持网络虚拟,能够提供虚拟路由器,并支持非VN流量的转发,如下图所示。

  • 核心传输节点:不支持路由器虚拟,传统的支持流量转发的路由器。
  • 边界节点:位于网络边缘,直连其他网络的路由器,其他网络通过E接口与边界节点互联接入VN。

从路由器的角度说,这4类节点相互之间并没有明显的界限。图中所示的节点b既支持核心VN节点功能,又支持核心传输节点功能。

虚拟映射层(Virtual Mapping Layer,VML):在端到端之间发现节点和拓扑,通过M 接口将拓扑逻辑路径上的节点映射到恰当的物理资源分片上构建 VN。本层完成 Vn 间的路径连接,即虚拟链路(Virtual Link,VL),VL应该支持汇聚。从图中可看到虚拟链路汇聚在网络中的位置。

虚拟管理层(Virtual Administration Layer,VAL):通过A接口对虚拟网络的资源和链路实施管理,具备普通网络管理功能,以及实时管理移动Vn和动态Vp能力,这些资源可能随时接入或离开VN。 

3. 网络虚拟化分层服务提供模型

在网络虚拟化环境中服务提供采用分层的方式,通过构建虚拟网为用户提供面向业务的服务。服务提供模型分为资源层、服务层和应用层3层,如图所示。

在资源层基础设施提供商(InP)负责部署和管理底层物理网络资源,并通过开放和标准的可编程接口将资源提供给服务提供商(SP)使用,不同的InP在资源的质量及使用自由度等方面提供差异化的服务。

在服务层 SP 通过映射代理向资源层的 InP 购买或租赁物理网络资源,不仅可构建用于满足用户端到端业务需求的虚拟网,也可将其中的一部分资源租赁给其他 SP,从而构建出具有层次性的虚拟网。

此外,SP 通过 InP 提供的接口对其虚拟网进行管理,并负责终端用户的虚拟网接入。网络虚拟化环境中的终端用户与当前互联网中的终端用户类似,但在虚拟化环境中每个终端用户可以通过映射代理与多个 SP 同时建立不同的连接,从而可以根据业务需求获得与之相匹配的服务。 

三、网络虚拟化架构

基础网络在一套物理网络上采用 VPN 或 VRF 技术划分出多个相互隔离的逻辑网络是1∶N 的虚拟化,将多种物理网络设备整合成一台逻辑设备而简化网络架构是 N∶1 虚拟化。

虚拟化智能弹性架构(IRF)属于 N∶1 横向整合型虚拟化技术范畴;作为提高接入设备端口密度的一种有效手段,纵向融合架构(Vertical Converged Framework,VCF)是端口扩展技术的一种实现方式,并可以简化管理。

在传统的网络组网技术难以满足IT发展要求的挑战下,技术的进步并不是全面修改传统网络规划与设计方法,而需要在保持大部分传统建设习惯下达到极大简化管理、简化运维和简化规划设计的效果。

1、网络虚拟化横向架构

1. IRF技术

IRF2源自早期的H3C或称为“IRF1的堆叠技术”,IRF1堆叠就是将多台盒式设备通过堆叠口连接形成一台虚拟的逻辑设备,用户通过管理这台虚拟设备实现堆叠中所有设备的管理。这种虚拟设备既具有盒式设备的低成本优点,又具有框式分布式设备的扩展性及高可靠性优点,早期在H3C S3600/S5600上提供此类解决方案。

IRF2既支持对盒式设备的堆叠虚拟化,也支持H3C同系列框式设备的虚拟化,如下图所示包括5800系列、55EI、75E、95E和12500系列各自系列内的IRF虚拟化整合。

2. IRF的软件体系架构

IRF技术的软件体系架构如下图所示:

  • IRF 虚拟化模块:自动进行 IRF 系统的拓扑收集和角色选举,并将设备组虚拟成单一的逻辑设备,上层软件所见只是一台设备。
  • 硬件系统:IRF组内的硬件设备及组件。
  • 设备管理层:提供对线卡和接口等各种设备资源的管理,这里的设备包括对硬件的抽象,以及通过IRF虚拟化发现的逻辑设备。
  • 系统管理与上层应用模块:运行在IRF系统中的所有管理和控制程序,包括各种路由协议模块和链路层协议模块等。

IRF虚拟化功能模拟出虚拟的设备,设备管理同时管理IRF的虚拟设备与真实的物理设备并屏蔽其差异。对于运行在此系统中的上层应用软件来说,通过设备管理层的屏蔽已经消除了IRF系统中不同设备物理上的差异。

因此对于单一运行的物理设备或IRF虚拟的设备,上层软件不需要做任何修改,并且上层软件系统新增的功能可同步应用于所有硬件设备。

IRF 作为通用的虚拟化技术平台,对不同形态的产品采用相同技术架构实现便于整网运行特征和升级能力一致性。 

3. IRF的系统管理

1)拓扑管理

设备上用于IRF连接的物理端口称为“IRF端口”,这是一种逻辑接口。一个IRF端口可能对应一个物理端口,也可能由多个物理端口聚合形成(称为“聚合 IRF 互联口”)以达到增强带宽和链路备份的作用。IRF 物理端口之间可以使用专用线缆或光纤连接,专用线缆具有更高带宽和较短的连接距离;光纤提供远距的IRF虚拟化能力。

IRF系统连接拓扑有两种,即链形连接和环形连接,如图所示。

IRF 系统中的各台设备通过与直接相邻的其他成员之间交互 Hello 报文来收集整个 IRF系统的拓扑关系,该报文携带拓扑信息,包括连接关系、成员设备编号、成员设备优先级和成员设备的桥MAC等内容。

IRF成员设备在本地记录自己已知的拓扑信息,拓扑信息通过IRF互联端口传递,经过一段时间的收集所有设备都会收集到完整的拓扑信息(称为“拓扑收敛”)。此时会进入角色选举阶段,确定成员为Master或者Slave。

角色选举会在拓扑发生变化的情况下产生,如IRF建立、新设备加入、IRF分裂或者两个IRF系统合并。角色选举规则如下(按规则次序判断,直到找到唯一的最优成员停止选举。此最优成员即为IRF系统的Master设备,其他设备则均为Slave设备)。

  • 当前Master优于非Master成员。
  • 当成员设备均是框式分布式设备时,本地主用主控板优于本地备用主控板。
  • 当成员设备均是框式分布式设备时,原 Master 的备用主控板优于非 Master 成员上的主控板。
  • 成员优先级大的优先。
  • 系统运行时间长的优先。
  • 成员桥MAC小的优先。

在角色选举阶段Master还负责成员编号冲突处理、软件版本加载及IRF合并管理等工作,拓扑与角色选举处理成功后IRF系统才能形成和正常运行。 

2)成员管理

通过IRF连接形成的虚拟设备在管理上可以看做是单一实体,用户使用控制台口或者远程登录方式登录到IRF中任意一台成员设备都可以对整个IRF进行管理和配置。

Master设备作为IRF系统的管理中枢,负责响应用户的登录请求。即用户无论使用什么方式并通过哪个成员设备登录IRF,最终都是通过Master设备配置,这种方式可以使IRF内所有设备的配置保持高度统一。

IRF系统使用成员编号(Member ID)来标志和管理成员设备,其中所有设备的成员编号都是唯一的。成员编号被引入端口编号中,便于用户配置和识别成员设备上的接口。

  • 成员设备加入:当IRF系统发现有新的成员设备加入时,会根据新加入设备的状态采取不同的处理。如果新加入的设备本身未形成IRF(如新上电,但IRF已经配置和电缆连接),则该设备会被选为Slave;如果加入的设备本身已经形成了IRF运行结构(如已经在IRF状态下工作,使用IRF电缆连接到已有IRF系统),则此时相当于两个IRF合并(merge)。两个系统会进行竞选,竞选失败的一方所有IRF成员设备需要重启,然后全部作为Slave设备加入竞选获胜的一方。
  • 成员设备离开:正常情况下直接相邻的IRF成员设备之间周期性(通常为200 ms)交换Hello报文,如果持续10个周期未收到直接邻居的Hello报文,则认为该成员设备已经离开IRF系统,IRF系统会将该成员设备从拓扑中隔离出来;如果发现IRF互联端口 Down,则拥有该端口的成员设备会紧急广播通知其他成员立即重新计算当前拓扑,而不用等到Hello报文超时后处理。

如果离开的是 Slave 设备,则系统仅仅相当于失去一个备用主控板,以及此板上的接口等物理资源;如果离开的是Master设备,则IRF系统会重新选举出的新Master接管原有Master的所有功能。
单台设备离开IRF系统后会回到独立运行状态,相连接的多台设备离开IRF系统后会形成独立的两个IRF,这种情况称为“分裂”。

盒式设备IRF互联形成的虚拟设备相当于一台框式分布式设备,IRF互联电缆模拟交换背板。IRF 中的 Master 相当于虚拟设备的主用主控板;Slave 设备相当于备用主控板(同时担任接口板的角色),如图所示。

框式分布式设备IRF互联后形成的虚拟设备也相当于一台框式分布式设备,但该虚拟的框式分布式设备拥有更多的备用主控板和接口板,如图所示。 

IRF中的Master的主用主控板相当于虚拟设备的主用主控板,Master的备用主控板,以及Slave的主用和备用主控板均相当于虚拟设备的备用主控板(同时担任接口板的角色)。

3)软件管理

IRF 2.0具有自动加载功能,新设备加入时会与Master设备的软件版本号进行比较。如果不一致,则自动从Master设备下载系统启动文件,然后使用新的启动文件重启重新加入IRF系统。

4. IRF对上层控制协议的支撑

IRF 的基本虚拟化思想是将多台设备合并成单台高密逻辑框式设备,因此系统内有多块主控,如何处理好Master主控与众多slave主控的关系成为IRF支撑上层协议处理的关键。

在IRF中采用的是1∶N冗余,即Master负责处理业务。Slave作为Master的备份,随时与Master保持同步。当Master工作异常时,IRF将选择其中一台Slave成为新的Master接替原Master继续管理和运营IRF系统,不会对原有网络功能和业务造成影响。

IRF 协议热备份功能负责将各运行协议的配置信息及支撑协议运行的数据(如状态机或者会话表项等)同步到其他所有成员设备,与单框设备的双引擎工作方式相似,从而使得IRF系统能够作为一台独立的设备在网络中运行。

以路由协议为例,如下图所示,IRF 系统与外部网络使用 OSPF 路由协议。 

Master 收到邻居路由器发送过来的 Update 报文时,一方面它会更新本地的路由表;另一方面会立即将更新的路由表项及协议状态信息发给其他所有成员设备,其他成员设备收到后会立即更新本地的路由表及协议状态,以保证IRF系统中各种物理设备中与路由相关的信息的严格同步。

当Slave收到邻居路由器发送过来的Update报文时,Slave设备会将该报文交给Master处理。

当Master故障时,新选举的Master可以在Graceful Restar(GR)环境下无缝地接手系统运行的工作。新的Master接收到邻居路由器过来的OSPF报文后会将更新的路由表项及协议状态信息发给其他所有成员设备,并不会影响IRF中数据转发,这样就保证了当成员设备出现故障时其他成员设备可以照常运行并接管故障的物理设备功能。

此时域内路由协议不会随之出现中断,二三层转发流量和业务也不会出现中断。IRF 系统的 GR 与单台设备的 GR处理流程相同,从而实现了不中断业务的故障保护和设备切换功能。 

5. IRF的底层转发实现

下图所示为单台框式设备与外部设备协议交互计算时的底层转发模式。

设备通过主控与协议邻居计算协议的状态产生全网的路由信息,然后形成转发表项,由主控将转发表项下发同步到各接口卡(上图左)。

在实际报文转发上,当以太网数据进入交换机时交换机硬件(Application Specific Integrated Circuit,ASIC)根据转发表信息和报文头提取源端口号转发出端口号。而其他信息组装成设备内部数据转发的附加信息头 Inner Header,加载在实际以太网报文帧前在设备内部转发(上图右)。

IRF 结构下的转发与单框设备的转发机制基本相似,多台盒式设备组成的 IRF 系统由Master计算并形成各成员的转发表。多台框式设备IRF由Master设备的主用主控计算生成转发表,各框线卡的转发表均由此主控同步下发。

当数据流在IRF系统的成员设备间转发时交换机硬件 ASIC 根据转发表信息和报文头提取源端口号,转发出端口号。而其他信息组装成IRF系统内数据转发的附加信息头IRF Head,并封装在以太网报文前面通过IRF互联链路转发到其他IRF成员,便于在出方向设备正确处理,如下图所示。 

IRF 2.0采用分布式转发实现报文的二/三层转发,最大限度地发挥了每个成员的处理能力。IRF 系统中的每个成员设备都有完整的二/三层转发能力,当它收到待转发的二/三层报文时可以通过查询本机的二/三层转发表得到报文的出接口(及下一跳),然后从正确的出接口发送报文。

这个出接口可以在本机,也可以在其他成员设备上。并且将报文从本机发送到另外一个成员设备是一个纯粹内部的实现,对外界完全屏蔽。即对于3层报文来说,不管它在IRF系统内部穿过多少成员设备,总是在跳数上只增加1,即表现为只经过了一种网络设备。

由于IRF系统已经被虚拟化为一台设备,因此不同物理设备的端口可以被聚合(捆绑)在一起被当做一个逻辑端口。在配置与组网上也完全相同于单台设备的端口聚合功能,如图所示。 

IRF 架构下的链路负载分担与单台设备有差异,单台设备的一组聚合端口为一个逻辑端口,从此逻辑端口出去的数据流完全基于特定哈希(HASH)均衡算法(源和目的MAC地址、源和目的IP地址,以及4层协议端口号)进行流量分配。IRF系统可以采用等同于单台设备的流量均衡方式,但此种方式下对IRF互联带宽有一定要求。

目前采用一种基于本地优先转发的方式,如上图中,A-B和C-D由两组IRF系统组成两层网络。两个IRF系统通过4条链路全连接,此4条链路被聚合成一条逻辑链路。当上游设备流量(红色)到达A设备需要向下游转发时,A只将流量在本地聚合组的两个端口成员内以硬件HASH进行流量均衡,对B设备也做相同处理。

只有当IRF成员本地没有业务出口,如图中B的下行端口全部故障时,数据流量才到IRF的其他成员向下转发。因此就近本地优先转发的机制可充分发挥IRF成员的性能,并在链路故障时流量自动绕行。 

6. 基于IRF虚拟化技术的网络横向整合功能

IRF 从提升网络整体效率的角度起到了一种横向整合的作用,即在不改变网络物理拓扑连接结构条件下横向整合网络同一层的多台设备,从逻辑上简化了网络架构。

由于整合后的IRF 系统具备跨设备链路聚合功能,因此不同网络层之间的电缆互联也通过逻辑整合。即多条链路被捆绑成一条聚合的逻辑链路,如图所示。

IRF网络架构与传统的网络设计相比,提供了如下显著优势。

  1. 运营管理简化:IRF 全局网络虚拟化能够提高运营效率,虚拟化的每一层交换机组被逻辑化为单管理点,包括配置文件和单一网关IP地址而无须VRRP。
  2. 整体无环设计:跨设备的链路聚合创建了简单的无环路拓扑结构,不再依靠生成树协议(Spanning Tree Protocol,STP)。虚拟交换组内部经由多个万兆互联,在总体设计方面提供了灵活的部署能力。
  3. 进一步提高可靠性:IRF 能够优化不间断通信,在一个虚拟交换机成员链路故障时不再需要进行L2/L3重收敛,能快速实现确定性虚拟交换机的恢复。

全面虚拟化构建的 IRF 网络同时支持包括 IPv4、IPv6、MPLS、安全特性、开放式应用体系结构插卡和高可用性等全部交换网络特性,并且能够高效稳定地运行这些功能,大大扩展了IRF在整网的应用范围。 

2、网络虚拟化纵向架构

端口扩展技术作为提高接入设备端口密度的一种有效手段逐渐成熟并获得了业界的认可,VCF纵向融合框架是该技术的一种实现方式,可以满足数据中心虚拟化高密接入并简化管理。

VCF在纵向维度上支持系统异构扩展,即在形成一台逻辑虚拟设备的基础上把一台盒式设备作为一块远程接口板加入主设备系统,以达到扩展I/O端口能力和集中控制管理的目的。为叙述方便,下面把纵向VCF的建立和管理过程等与IRF传统的横向相关功能进行对比。

IRF(横向)堆叠拓扑主要有链型和环形两种,设备按角色可分为Master和Slave。Slave在一定条件下可转变为 Master,二者业务处理能力是同一水平,只不过 Slave 处于“非不能也,实不为也”的状态。

VCF(纵向)设备按角色分为控制网桥(Controlling Bridge,CB)和端口扩展器(Port Extender,PE或称“远程接口板”)两种。通常PE设备的能力不足以充当CB,管理拓扑上难以越级,处于“非不为也,实不能也”的状态。

如下图所示,左边是框式设备或者是盒式设备各自形成IRF堆叠横向虚拟化系统,有环形堆叠和链型堆叠(虚线存在)两种拓扑形式;右边是框式设备与盒式设备形成VCF纵向虚拟化系统(简称“VCF Fabric”),为便于对比CB由IRF堆叠组成。

一般来说,IRF(横向)堆叠控制平面由 Master 管理,转发能力和端口密度随着 Slave增加而增加;VCF(纵向)Fabric控制平面由CB(或IRF中的Master)管理,端口密度随着PE增加而增加,但总体上转发能力仍取决于CB设备。

VCF可与IRF技术组合使用形成的系统具有单一管理点、跨设备聚合,以及即插即用等优点,并加强了纵向端口扩展能力。 

1. VCF技术机制

VCF的CB角色可以由处理能力较强的盒式设备和框式设备承担,也可以是基于IRF技术建立的横向堆叠。PE一般来说是低成本的盒式设备。在实际应用中 CB 角色多为横向堆叠,这样有益于PE上行冗余。

1)拓扑管理

上图所示的CB角色是一个典型的VFC拓扑。PE角色为盒式设备。CB与PE互联口称为“纵向 Fabric口”,这是一个逻辑概念,可以是一个物理端口或者多个物理端口组成的聚合口。CB与PE之间可以使用专用线缆或光纤连接。

PE根据组网需要可以连接到一台或多台CB设备,PE与PE之间不能再有其他连接。从模型上看,PE相当于CB的一块远程接口板;从功能上看,CB与PE间的纵向 Fabric连接相当于框式设备的背板;从管理上看,所有CB和PE设备组成一个堆叠,对外是一台设备和一个管理点。

整个拓扑建立包括两个方面,一方面是多台CB设备依据IRF相关规则和拓扑计算建立横向堆叠;另一方面是 CB通过纵向 Fabric口向外发送Hello报文,根据PE反馈信息建立纵向Fabric。

纵向Fabric建立过程主要分为如下4步:

  • 第1步完成扩展板编号(Slot-ID)的分配和获取,CB上VCF Fabric口使得以后会周期性地发送探测报文,一旦Slot-ID分配完成则停止。
  • 第2步完成软件的加载,包括PE发送加载请求,CB提供版本文件描述信息,以及确认加载和加载完成等几个子过程,其中,Bootware类似个人电脑上的基本输入输出系统(Basic Input Output System,BIOS)和App(即主机软件)的加载实现过程。
  • 第3步PE用下载后的版本重启并完成在CB的注册。
  • 第4步CB向PE下发配置信息。

2)VCF Fabric连接方式

PE 与 CB 间的纵向 Fabric 连接类似框式设备的背板,为了增加带宽并使上下行流量保持合适的收敛比,二者间链路通常由多个物理线路组成,逻辑上可采用哈希(HASH)均衡方式来实现。

这样一条链路 Down 不会引起挂接服务器的下行端口 Down,但带宽变小。并且相关流量也会重新进行HASH计算并分配到剩余链路上,如下图所示。 

3)PE管理

横向配置、Master选举,以及整个堆叠建立和维护与IRF没有纵向功能前完全一样,纵向VCF加上PE后建立过程相对复杂一些。但本质上所有CB和PE形成一个单一的逻辑实体,可以通过任何一台CB上的用户管理接口,如Console口、Telnet或者网管口来配置和管理。

IRF 系统使用成员编号(Member-ID)来标示和管理成员设备,在一个 IRF 中所有设备的成员编号是唯一的。成员编号被引入到端口编号中,便于用户配置和识别成员设备上的接口。类似地,在VCF(纵向)中系统使用扩展板编号(Slot-ID)来标示和管理纵向扩展设备,在整个系统中扩展板编号也是唯一且同样被引入到端口编号中。如果 CB 是框式设备,这个编号也绝对不能与框式设备上已有接口板(LPU)的编号重复。

在使用上二者机制稍有区别,成员编号(Member-ID)需要设备重启才能生效;扩展板编号(Slot-ID)在CB上配置后可立即生效。

PE 加入:当 VCF 系统有新的成员设备加入时会根据系统所处状态或者 PE 设备的状态采取不同的处理过程。假设横向IRF已配置且在CB中已为PE分配Slot-ID,则此时PE以默认出厂配置可即插即用。正常运行的纵向 VCF系统在因某些外在因素引起断电或重启,系统不需要干预的情况下将自动恢复。

如果运行过程中 PE 可以通过纵向Fabric口随时接入系统,CB会自动计算拓扑以防止新的PE接入时产生环路。从虚拟化的角度来看,这个过程相当于框式设备的接口板插入。当然由于此时的“背板”链接是动态端口,因此需要进行拓扑计算以阻断环路,而实际的框式设备在初始化时已经完成了这一动作。

PE离开:相对简单一些,当CB与PE链接电缆拔出或者对应端口Down掉线时系统即产生远程接口板离开事件,这一过程与框式设备的接口板拔出基本一致。

4)盒式设备作为CB

盒式设备充当CB并下挂PE时,横向CB通过IRF互联形成的虚拟设备相当于一台框式分布式设备主控板;纵向PE通过VCF互联形成虚拟框式设备的分布式设备接口板(或称“线卡”)。

横向IRF互联电缆模拟交换背板中主控板互联,IRF中的Master相当于虚拟设备的主用主控板,Slave设备相当于备用主控板;同样地,纵向VCF的CB与PE间互联电缆模拟交换背板中接口板到背板的链接,PE 设备相当于虚拟设备的 I/O 接口板。

如下图所示,右边为虚拟化设备的逻辑视图。

5)框式设备作为CB

框式设备充当 CB并下挂 PE 时对于横向,框式设备通过 IRF 互联形成的虚拟设备也相当于一台框式分布式设备,此时该虚拟框式设备拥有更多的主控板和接口板。

对于纵向,PE通过VCF互联形成虚拟框式设备的分布式设备接口板;横向IRF中的Master的主用主控板相当于虚拟设备的主用主控板及 Master 的备用主控板,Slave 的主用和备用主控板均相当于虚拟设备的备用主控板(同时可担任接口板的角色)。

Master和Slave中的接口板继续担当接口板的角色,其中接口板的部分或者全部端口与PE相联;同样对于纵向,盒式PE通过VCF与 CB 相联(一般来说是框式 CB 的接口板),PE 设备相当于虚拟设备的 I/O 接口板,如下图所示,右边为虚拟化设备的逻辑视图。 

视图中包括主备主控板主处理器单元(Main Processor Unit,MPU)、线卡主备线路协议单元(Line Protocol Unit,LPU)和线卡PE。 

2. VCF系统管理

上面已提到整个 Fabric 系统可作为一个逻辑实体并通过 IP 管理系统层面的软件版本管理、配置和通过即插即用来建立VCF系统,说明如下。

1)软件版本管理

IRF在建立横向堆叠时会比较版本,最终所有成员都会统一于Master的版本。对VCF来说,PE在加入堆叠时从CB下载版本。当CB是IRF堆叠时,无论PE是否直接与 Master 相联均从 Master 获取版本,因此从结果看整个堆叠系统版本都会与 Master统一。

横向堆叠Slave获取的版本与Master自身运行的版本是同步的,纵向 Fabric各PE获取的是适合PE运行的部分。一般来说,CB和PE各自由不同的CPU和交换芯片等构成,因此实际上在 CB(或 Master)上有两个不同功能用途的软件包,系统启动或运行过程中会自适应各取所需。

2)配置管理

整个 Fabric 系统作为一个逻辑实体管理时可通过 IRF 成员,如 Master或Slave的控制台等配置。一般来说,PE不提供控制台等配置口。

对于VCF,当在CB上指定与物理端口(或逻辑上的聚合端口)相应的Slot-ID且PE已正常加入系统后即可通过CB对PE进行配置,如PE上端口所属VLAN和QoS规则等。系统保存配置后PE对应配置信息保存在CB中,系统重启或者更换PE时PE对应配置信息也从CB上下发,即PE配置可以“继承”。

3)PE即插即用

PE相当于VCF虚拟化框式设备的一块接口板,实际框式设备通过热插拔来实现即插即用。

为了实现类似功能和简化管理,PE 通过纵向 Fabric 口及纵向 Fabric连接Up/Down事件感知支持即插即用。

3. VCF上层控制协议

VCF侧重对CB设备进行I/O端口扩展,除了和端口密切相关的功能外,其他上层协议基本上都在CB中实现。这样做的好处显而易见,PE仅作为接口板插入虚拟框式设备提高端口密度而减少管理网元,并且系统控制管理平面上移有利于对大2层多服务器环境下的集中控制和网络策略管理;其次,对PE的性能规格要求不高,有利于成本控制。

CB在横向IRF组成的Master和多个Salve是1∶N备份模型,作为纵向诸多PE的管理控制单元起着冗余备份作用。纵向 Fabric PE作为接口板加入,协议控制平面继承了横向堆叠的实现和优点。例如,对3层报文生存时间(Time To Live,TTL)跳数仍只加1并支持跨PE聚合等。

4. VCF转发平面实现

一般来说,VCF中CB设备相对PE性能更好,承担VCF的业务数据转发决策;PE主要承担CB端口扩展器角色。在VCF CB设备中不管业务流量来自PE设备,还是来自CB设备自身的非纵向 Fabric口都根据业务报文的目的查表转发。

1)VCF单播转发

  • VCF上行方向(即从PE到CB):来自PE的UNI口的流量在扩展设备上不做查表转发处理,而是将原始的业务报文直接重定向到CB设备。CB设备收到业务报文后从其中提取扩展端口等信息,并基于该信息完成地址学习及业务控制。
  • 下行方向:如果业务报文需要单播到 PE 的某 UNI 端口,CB 设备在完成业务报文转发决策和必要的报文修改后通过纵向Fabric互联口发送到PE设备;PE收到业务报文后从其中直接提取出端口等完成业务报文的发送。

2)VCF组播转发

  • 上行方向:即从PE向CB的报文流程同前文单播一致。
  • 下行方向:对于需要组播(广播处理过程同组播)的业务报文,CB设备会为每个PE设备复制一份业务报文并通过纵向 Fabric互联口发送到PE设备。PE收到这类业务报文后,如果是广播报文,则在对应的VLAN内广播业务报文;如果是组播报文,则按照组播索引查找对应的用户网络接口(UNI)端口列表复制并发送业务报文。

3)VCF多互联链路选路机制

一般来说,CB设备和PE之间会配置多条互联链路,而且IRF横向堆叠作为CB设备时多条互联链路可以分布在不同的IRF成员设备上。

在PE到CB设备的上行方向单播和组播实现方式一致,采用HASH方式使得流量在互联链路上分布更为均匀。

CB设备到PE设备的下行选路,单播采用最短路径原则。即如果CB设备是IRF且到某PE的互联链路分布在多个IRF成员上,则IRF选择到PE的最短路径。如果单个IRF成员与某PE有多条互联链路,则在该IRF成员上进行聚合HASH选路,这一原则的出发点在于尽可能减少对IRF本身堆叠链路的带宽占用。

组播只选择一个互联链路发送一份组播副本,当同一PE下有多个用户时实际复制工作在PE进行。

当然为了提升系统的转发性能和减小延迟,某些PE也可提供本地流量转发功能。

5. VCF架构的特点

1)VCF部署中的多级冗余和高可靠性

VCF支持多种CB和PE设备,CB包括的框式和盒式两种类型都支持服务器跨PE冗余接入。

特别是框式CB由于通过IRF横向堆叠组网,所以天然支持跨框和跨板聚合,从而为网络冗余设计提供丰富的选择;同时VCF方案不仅支持虚拟接入层的冗余,而且也支持核心(汇聚)层的冗余,能更全面提升系统级的可靠性。

2)VCF技术的高可扩展性

VCF中CB可通过IRF横向堆叠建立,即可由多台设备组成。例如,H3C框式高端设备最多可构建4台设备组成的IRF堆叠,这些设备充当CB角色时也是如此;盒式设备则可构建更大规模的IRF和VCF系统。

VCF中的CB角色通过不同组合可提供更大的灵活性和更好的扩展性,这一优势能更好地支持企业或云服务运营商根据自身业务发展规模平滑扩容IT设施。

3)L2/L3流量线速转发

VCF中承担CB角色的所有设备,包括框式设备和盒式设备均支持2层和3层流量的线速转发。即不需要增加额外的板卡,而且L2/L3流量完全线速。

4)PE设备支持双模式和保护用户投资

H3C的PE设备支持两种运行模式,即标准交换模式和PE模式。二者可以通过命令行或者网管切换,设备出厂的默认设置为标准交换模式。在和支持VCF纵向管理的设备互联且纵向特性开启的情况下,设备可自动感知切换到PE模式,即支持即插即用。

双模式特性使得用户可根据自身网络系统建设组网的需要选择,在不牺牲纵向设备“即插即用”等简化管理功能的情况下很好地保护用户投资。

VCF技术为网络虚拟化,以及支持数据中心服务器虚拟化提供了一种思路,VCF纵向扩展技术将有助于构建大规模虚拟化网络和简化管理。

四、网络功能虚拟化NFV概述

1、NFV简介

IP网络源于对数据流量的传输需求。当前,诸如语音、视频、移动等各类应用服务也都开始承载于IP网络之上。上述这些服务以往都由相互独立的网络分别承载,但近年来,将这些独立的承载网络进行融合,并将各类业务流量迁移至基于IP的通用网络趋势凸显。

络融合的主要动力源于两方面,其一是对提供新型服务的能力需求,其二则是对部署和运营成本的缩减需求。然而,融合后的网络会出现愈加复杂、不够灵活的问题,这是由于每种业务在其网络设计阶段都存在一些附加的约束条件。例如,IP语音(VoIP)流量要求网络抖动保持在50ms以内,端到端时延应低于150ms。这就要求底层IP网络应具备较高的QoS保障,而在仅承载Web业务的IP网络中并不特别关注这两项性能指标。

随着时间推移,为了适应不断产生的新业务需求,底层网络经历着规模扩展、局部重建、阶段演进的过程,使得当前的网络更像是一张为实现短期目标而拼凑起来的混合网络。其后改进型网络并未达到运维简化、成本降低的预期效果,也没有很好地解决可伸缩、易迁移与互操作性等方面的问题。这种如同意大利面般错综复杂的网络已不再是一张具有最佳成本效益的网络,更加缺乏对当今市场快速变化需求的敏捷性。

NFV 是应对上述挑战的一种全新技术,由它带来的解决方案可以有效地简化、优化及转换现有网络,并提升其成本效益与灵活性。相较于传统基于硬件设备构建网络的设计方法,NFV 网络的设计方法必须做适当演进与变化,如此才能最大限度获得NFV网络带来的优势与效益。

应强调的是,网络NFV化不只是物理网元向虚拟网元的形态转变,它更需要在网络构建中进行范式转变。这就要求我们在传统网络设计原则上扩充NFV相关内容,例如VNF网元的布局与基础设施的设计。

2、NFV网络设计注意事项

传统网络的设计遵循以硬件为中心,这导致网络设计需求受限于既定的网络设备范围。如果设计需求与供应商提供的设备不匹配(例如功能、性能或规格等方面的差异),设计就必须进行调整以适应有限的可选项。这使得网络设计只能紧紧围绕硬件设备及其功能而进行,这种僵化的网络难以适应将来因新型业务引入而产生的任何变化。

即使可以改变,也需要对物理层做出调整并耗费较多的人工成本。基于NFV 的网络设计意味着不再有这些限制因素,它提供了灵活性优势,不受限于任何网络硬件设备。此外,结合弹性、可伸缩、以软件为中心的理念,基于NFV的设计可以满足不断变化的网络需求。NFV 特有的快速迁移与敏捷部署能力,使得基于此技术设计的网络可以有效地缩短交付周期,而这也是在传统网络中一直阻碍新业务发展的重要原因。

为了最大限度发挥NFV的作用以及获取其优势,在设计部署NFV网络的过程中要采用一种不同于以往的方法。正如所强调的,网络功能应与硬件完全解耦。因此在对供应商提供的VNF选型时,应确保其与物理基础设施层设计的无关性。

同样地,在对物理基础设施层进行设计时,也不应受其上加载的VNF影响。出于对网络功能管理与部署的考虑,需要增加另一种设计维度。另外,由于网络中每个模块受不同因素影响,因此对它们的设计应完全独立。

下图展示了NFV网络设计过程中的3种重要维度:

虽然对NFV多种模块的设计相对独立,但在NFV网络中,对各层在功能及性能上的设计应保持通用定义的目标。任何一层偏离该目标都可能引发瓶颈,最终导致整个网络性能下降。

同样地,如果仅有一个模块围绕更高性能的网络目标进行设计,也无助于对网络整体性能进行提升。

3、NFV基础设施设计 

 NFV基础设施不是为了满足特定网络和服务的需求而设计。基础架构旨在遵循通用性原则,并应确保其对VNF扩展性与伸缩性的良好支持。此类基础设施也可能用于服务器或数据中心应用等场景,而不仅限于NFV领域。

实现VNF灵活开放平台的标准:

1. 可扩展硬件资源

基础设施硬件应该具备可伸缩性。由于基础设施完全独立于其上的网络层设计,因此我们难以实现每次都准确预测可能出现的硬件资源需求。围绕这一点设计的主要方法是尽可能地让部署资源充足,并且构建资源池,以便可以跨基础设施共享资源。

例如,使用共享磁盘池代替使用服务器内置磁盘的方案有助于提升资源利用率。即便运营商在初始部署阶段提供了丰富的硬件资源,希望以此避免将来多次更新的需要,但已部署的硬件可能仍然无法满足不断增长的需求,及其自身的升级需求。

为了应对这些问题,运营商应选择可轻松扩展的硬件设备,即相关扩展操作不会对其上承载的虚拟化应用和VNF有任何影响。这需要选定的服务器能够对诸如网络接口卡(NIC)、内存等硬件资源实施扩展。

2. 硬件成本与资本支出

硬件的成本始终是一个重要的评判标准。定制化成品硬件被视为极具性价比的方案,但诸如Cisco、HP、IBM和Dell这样的供应商也在提供可与COTS硬件形成竞争性价格的商用服务器产品。运营商可能倾向于选择商用服务器产品,因为由供应商所提供的硬件经历了各功能组件间的兼容性测试,且具有合同内的技术支持服务。

从本质上来说,这种选择类似于个人用户在定制化组装计算机与供应商品牌(诸如Dell、Lenovo、HP)计算机之间所做出的选择。无论是独立组件、COTS硬件,还是由供应商提供的商用产品,任何选择都会影响到部署的总体资本支出。另一方面,这种选择也会受网络预期的可靠性以及出现问题时可获得的技术支持等多重因素影响。

3. 主机操作系统与虚拟化层的选型

主机操作系统和 Hypervisor 必须与所部署的硬件兼容且能够平滑集成,因为它们共同为构建稳定的系统提供了基础。在使用 COTS 硬件或商用产品时,对于主机操作系统、Hypervisor,甚至于编排工具的选择范围都相当广泛。为了有所聚焦,建议从以下几点进行考虑,软件附带的技术支持类型、软件许可证费用、采购相关成本、将来支持的路线图、升级支持、稳定性、与其他开源和商用工具的兼容性。

在以上这些因素之间找到适当的平衡点即是我们要做的设计决策。一些运营商可能倾向于VMware、RedHat或Canonical等公司提供的完全捆绑的软件解决方案。另一些运营商则对诸如Ubuntu、CentOS的操作系统以及KVM(Kernel-based Virtual Machine)虚拟化软件的开源解决方案更有信心。

在前一种情况下,运营商要为此支付许可证费用,但由于这些产品具有良好的业绩记录、技术支持体系以及明确的路线图和升级路径,因此运营商在使用上更加轻松。在后一种情况下,开源解决方案可以节省许可证费用,但需要运营商内专业部门、第三方或是开源社区对将来的发展与问题提供技术支持。

4. 电源功耗与空间使用率

基础设施硬件在功耗与空间上的需求对网络运营成本有着长远影响。对于世界上那些地产稀缺、电价高昂的地区,这一点更加关键。想要了解空间使用率与电源功耗为何如此关键,可以将当今在建的数据中心部署规模与其内部托管的虚拟服务器数量做个比较。

这些数据中心分布于广袤的土地上(或是人口稠密地区的高层建筑中),消耗着数百兆瓦的电力能源,单个服务器在空间与功耗上的任何改进都可能对NFV网络POP点的运营成本产生巨大影响。必须指出的是,虚拟化网络功能并不会直接带来功耗优化的结果,真正起作用的是按需利用VNF弹性伸缩的优势。

5. 通用与可复制的封装模式

在对基础设施进行设计时,应力求将环境的差异性影响降至最低。基于通用的软、硬件封装模式进行设计可以有效简化部署,例如对NFV网络多个POP点的重复部署。

想要实现设计方案可复制、部署方案可简化,要求电源与空间需求、安装与调试技能、配置工具以及方法尽量保持不变。通用硬件基础设施的一个优势是减少了故障硬件所需的冗余备件数量。另一方面,实现一种可复制的封装模式,需要在设计阶段进行更多的规划与思考。

6. 地点分散

在NFV基础设施设计阶段,部署地点的选择至关重要。理想情况下,基础设施的部署位置既要考虑地理上尽量分散,又要尽可能在一些关键地点(如商业区域)密集部署。因为与郊区相比,城市环境对网络的需求更加集中。

分散部署地点的一个原因是出于对区域性故障或灾害的冗余性考虑。另一个重要的原因是无论何时何地有需求,都应确保VNF不受资源限制,实现灵活扩展。这可能与VNF需要接近用户边缘部署,或者一个在某时刻VNF需求突增的特殊场景有关。

7. 冗余和高可用

在传统网络中,减轻故障的设计是基于这样一种假设,即实现某项功能的设备为单一组件(非冗余),那么当它出现故障时,可能会导致网络中该项功能不可用。因此在传统网络中,必须确保设备级的冗余性,以防止因单个组件故障引发网络中断的潜在风险。

例如,某台路由器仅有的一个硬盘驱动器发生故障,则可能影响该路由器的整体功能,从而导致网络中断或流量异常。通常,我们可以根据设备的重要程度,预先配置一台冗余设备(或多台)或一条备用业务链路,并根据需要随时进行业务切换。

相比之下,NFV网络则是在组件级别实现了高可用和冗余性。因此,由单个组件故障导致的网络功能失效可能性大幅降低。例如,在采用独立冗余磁盘阵列(RAID)技术的服务器上,以VNF形态部署一台路由器,当服务器中一块硬盘发生故障时将不会产生任何影响。考虑到NFV基础设施可以实现共享,所以在其中进行冗余性建设是具有成本效益的,因为多个VNF能够同时受益。

除了服务器硬件级冗余之外,基础设施硬件设计中也应考虑为虚拟机或容器提供冗余性。在交换机这类基础设施中,生成树协议(STP)及其变体(诸如RSTP、PVST、MSTP)已被应用较长时间。而像TRILL、LACP、MC-LAG、EVPN等较新的协议也能提供相关冗余性。上述及其他类似协议为提升NFV基础设施冗余能力提供了大量的选择和方法。

由虚拟化层提供冗余性与虚拟机迁移特性的设计和支持也应该被视为一种强大的鲁棒性(也被称作健壮性)设计。例如,VMware提供的vMotion功能,OpenStack提供的Live-migration功能。

8. 基础设施生命周期

用于构建基础设施的硬件设备定期会更新换代,下图展示了基础设施硬件从规划、采购到报废的全生命周期图谱。

硬件的生命周期持续时间是根据设备预期的无故障平均运行时间、技术支持合约时限以及修复组件可用性的持续时间共同确定的。

NFV基础设施(NFVI)设计阶段也应考虑服务器、存储、交换机等基础设施的生命周期因素。典型数据中心中使用的服务器、存储设备通常有3~5年的使用生命周期。交换机则被认为有更长的使用年限,大约长至6年。

达到上述使用年限的设备可以被认为是物尽其用,充分发挥了投资成本效益。为了使故障率降至最低,一旦预期使用年限到期,这些设备就可能会被新设备替换。这种时限评估与实践方法同样适用于NFVI场景。此外,主机操作系统、Hypervisor、VNF这类软件也有其生命周期,它们需要通过软件版本升级实现增强功能、支持更新或是问题修复。

因此,在设计中应考虑协调好这些多重因素,以避免出现意想不到的困难。例如,VNF软件的支持与发布周期可能为1年,Hypervisor软件建议更新周期为2年,而交换机、服务器的使用年限分别为6年与3年。在以上示例中,各软、硬件设备的生命周期难以较好地匹配,如果没有完善的设计与规划来以最优的方式处理这个问题,将会导致不断的网络升级操作。

设计目标应该是尽量减轻因升级而产生的影响,并提前计划以减小升级后产生问题的可能性,这些问题可以通过适当的预集成产品测试流程实现最小化。

4、基于网络功能的网络设计

NFV基础设施就绪以后,网络及其各功能块(如VNF)可以被视为此基础设施之上的叠加层,如图所示。

因此,网络设计是独立、灵活的,且不受任何物理硬件的约束。网络设计完全聚焦于需要实施的VNF所提供的业务,对于任何所需的计算、存储和网络资源均可以假定其满足设计要求。

与传统网络相比,NFV网络的关键区别在于其设计和部署基于以软件为中心的思路方法,因此网络的核心功能是以软件实现的。

综上,软件形态的网络功能(VNF)可以自由地进行添加、缩放、删除与迁移操作。VNF还能支持开放式API,它允许任何第三方编排与管理工具对VNF的部署及其他全生命周期操作进行控制。编排工具通知虚拟化层以任意所需规则与VNF实现交互,并将新的VNF实例化后,实时地添加至数据或控制业务流。

由于NFV网络设计的关键要素是对VNF及其管理功能的设计,网络设计原则的一些常见要素是投资与运营成本的降低以及资源利用率的最优化。

1. 通过资源优化削减投资与运营成本

在对当今传统网络的效率进行分析的过程中,我们发现传输与设备资源的利用率都偏低。为满足将来的预期增长需要或是确保某一时刻(无论是一天、一周、一个月或是一年)的峰值需求,设备与带宽资源通常会保证充裕配置。

同时,为了防止硬件设备、网络连接或网络软件的故障,还需提供额外的冗余资源。由此形成的网络在大部分时间段内利用率较低,这种增加投资与运营成本的方式也严重稀释了网络投资收益率。

与传统网络形成鲜明对比的是,得益于虚拟化技术,NFV允许VNF可以根据需求的变化,灵活地调用及获取其所需的资源,动态地扩展急需的资源或释放不必要的资源,从而最大限度地提升资源利用率。

因此,网络设计者并不需要为VNF过度配置计算、存储或网络等资源能力,这些资源在NFV网络中可以灵活调度。此外,NFV网络设计可以灵活地免除或最小化功能冗余,因为VNF可以在需要时立即创建。

2. 按需设计

NFV网络可以按需灵活扩展,因而可以使用基于需求的增长模型进行设计。例如,移动运营商需要在NFV网络中上线一项新业务(如基于WiFi的语音服务),或服务供应商计划开发一个创新网络功能(如新型缓存服务器),那么它们可以基于NFV技术在某些细分市场试点引入以上业务或功能,从而开展用户体验评估与反馈、调研可能发生的问题、分析潜在的收益与成本效益等各项任务。

根据试运行的反馈结果,服务提供商可以轻松地对这些加载新业务的虚拟设备或VNF进行设计更改。一旦试点场景中新业务(或新功能)取得了较好的收益(或水平),服务提供商可以将该业务(或功能)逐步扩展至其他市场或地区。

对于想要引入新业务或升级任何现有业务的网络设计者而言,此类变更并不需要从初始阶段就对大规模部署进行设计与推广。作为开拓目标市场的试点方案,这些服务最初以一种简单的方式被部署上线。

将来,随着部署范围的逐渐扩大,可以持续进行细化和完善。另一方面,如果某项业务的市场需求变少,可以灵活地回收该业务占用的VNF资源,其底层使用过的物理硬件可以创建其他VNF实例,用于加载新型业务。

3. 利用基础设施冗余

在传统网络的设计环节,为了保证通信链路和带宽的冗余性,需要提前将设备、传输等多种因素都考虑至需求中。在NFV网络中,则无须预先配置网络功能的冗余性。

在基础设施层设计中,为防止硬件故障,我们已经做了冗余性考虑。在组件级别实现硬件冗余性,可以确保一个组件(CPU或内存模块)的故障不会影响到VNF的正常运行。如果出现灾难性的硬件问题,诸如多个磁盘或架顶(ToR)交换模块同时发生故障,编排层可以立即在全新的硬件上对受影响的VNF进行重建,从而确保把网络受故障的影响降至最低。

在这种情况下,NFV 网络设计需对灾难恢复与故障缓解进行重新定义,下图展示了对多层故障的防护措施。

在数据中心和服务器虚拟化部署场景下,图中所示的基础架构已被证明具有较好的弹性扩展能力。在NFVI的设计中若利用了这种成熟的架构,可以确保NFV的高可用性。

类似地,对于VNF的管理与编排技术也可以充分借鉴服务器虚拟化的方法与工具,诸如vMotion。通过这些机制,VNF的设计可以保持相对简单,不需要增加额外的冗余层来确保网络服务的高可用性。

4. 基于模块化的灵活性

在NFV网络中,可以将网络功能分解为独立的VNF(或一组VNF),而不会造成任何成本或资源的损失。网络设计应采用模块化方法,围绕功能而非设备进行设计。

如下图所示,传统路由器通常集防火墙、地址转换、路由等多个网络功能于一身,在多数情况下,对任意功能的升级都将引起设备整个软件包的更新,甚至是硬件的更换。

基于NFV网络的模块化设计具有可伸缩性和灵活性的优势。在试点或生产网络中反馈的任何变更需求都可以方便地合并至系统设计环节。这种变更如同实施外科手术一样,让我们聚焦于特定的功能,很容易在短时间内实现重构、验证和部署等过程。

设计的可伸缩性为各类网络功能实现提供了广泛的选择范围,同时可以融合适配多个供应商的VNF,从而创建定制化的解决方案。实现NAT、防火墙及其他网络功能(如路由协议)的VNF可以由不同的供应商提供,而我们通常是基于各功能需求的最佳匹配原则进行选择。

5. 弹性与可伸缩性

在能力规划方面,对NFV网络的设计与传统网络的设计差别较大。借助以软件为中心的方法和自动化支持,VNF资源可以在不影响网络的情况下进行扩展或缩小。如前所述,这种弹性能力还可以实现相同功能的VNF之间的负载切换或负载分担。

在前面的示例中,当一个BGP对等体VNF的负载到达其所分配的CPU能力上限时,则可以基于VNF弹性能力为其增加更多的CPU,或者实例化一个全新的VNF作为备选的BGP对等体节点,如下图所示。

网络设计同样要考虑业务的实际需求。当业务要求提供特定的服务保障水平时,可以基于对VNF弹性能力的设计实现这一需求。编排器应具备对VNF监控数据的实时分析能力,确定要解决的约束和限制,并通过指导NFVI或VNF层采取适当的措施来规避它,从而确保业务与技术在弹性方面保持一致性。这要求编排层应包含弹性变化所对应的逻辑规则。

虽然之前示例阐述的是资源弹性扩展场景下的情况,但对应的逻辑规则也适用于资源弹性缩容的场景。仍然以上述BGP VNF为例,如果需要将对等体数量降至一个VNF实例,那么可由编排层减少多余的VNF实例,从而释放出NFVI资源留作他用。

6. 部署前的设计验证

任何设计都必须经过一定程度的验证。验证过程不但耗时,而且增加了大量的成本和资源投入。在使用传统设备的互联网服务提供商(ISP)典型部署场景中,测试和验证过程可能需要几个月甚至一年的时间。因而,设计必须尽可能地完善,然后再将其投入到验证环节中,特别是那些可能导致全局工作无效的设计缺陷。

NFV从多方面缓解了上述限制。它可以通过缩短设置系统所需的时间从而缩短验证周期。测试网络由弹性的虚拟功能构建,可以借助软件示意模块轻松地实现重新编排与连接。测试期间可同步对设计进行完善,且大部分步骤可实现自动化,以便为任何设计更改提供灵活或快速验证的能力。可以使用生产网络中的基本试验部署对测试和验证环节进行整合。根据初始设置的经验,可以检查生产环境的潜在问题,并使用反馈结果来改进设计。

7. 按业务需求的动态设计

凭借VNF即时实例化并接入现网的能力,可以进一步扩展业务范围。基于NFV的设计应该将网络视为流畅和动态的网络,并为最终用户提供一系列可选项。除了用户订购的基础服务包外,运营商还可提供一些增强的功能选项,这些选项也可以随时由用户进行增加、删除或更改。

举例来说,在运营商提供的基于云的数字视频录像(DVR)家庭业务中,用户可灵活地订购视频存储空间动态增加服务。另一种案例是在政企业务场景下,旨在允许用户将负载均衡器或防火墙添加至私有互联网服务中,或增加他们被允许发送给运营商的路由限制。这些可选项不仅为运营商带来了收入增长的机会,而且可凭借灵活性改善用户体验。 

虽然这些可选服务无须在初始阶段进行部署,但它们必须在网络设计阶段进行预先设定。因此,网络设计人员应确保在规划基础设施时考虑到这些因素。

8. 减少计划内停机时间

之前我们讨论了冗余和灾难恢复设计方案,以应对任何计划外的故障事件。然而,可能导致停机的计划内事件(例如升级和迁移)也需要被视为设计的一部分。设计应考虑3类计划内升级的可能性。VFN升级或计划内停机。Hypervisor升级。宿主机升级。

当前主流的Hypervisor软件均支持对CPU、内存等资源的在线升级。理想情况下,其上加载的VNF也应该能接受此更改,而不会对其功能产生任何影响。但在实际应用中,可能存在部分VNF不具备该功能的情形(该功能缺陷成为设计环节对VNF选择时要考虑的因素之一),因此资源更改可能会影响VNF在线功能。对于这种计划内停机,通常需要采取预防措施。

一种可行方案是根据所需能力实例化一个新的VNF,然后将业务无缝切换至新的VNF,最后删除原有VNF实例,如图所示。

值得注意的是,在一个优秀的VNF实施例中,不应出现上述情形。因为在VNF设计环节,应考虑其具备对物理资源变化的自适应性及业务的连续性。然而,设备商提供的方案通常不具备这种理想的状态。但这并不会影响VNF在现网中被采用,因为其他优势足以让人们忽略这方面的缺点。

在设计环节中还需考虑对Hypervisor、宿主机操作系统以及硬件等各类组件升级造成的影响。这些升级可能会同时影响多个VNF。一种减少停机时间的可行方案是在对Hypervisor、宿主机操作系统等组件升级前,将VNF迁移至共享基础架构中的其他宿主机之上。

综上,设计环节应充分考虑如何适应这些计划内事件带来的挑战,任何功能模块的迁移及升级都可能导致VNF停机。

9. 基于位置和时间的部署 

由于NFV的网络功能并未绑定到特定的硬件或位置上,且可能具有可变及较短的生命周期,因此对NFV网络的设计需要考虑VNF部署位置及在线时间等因素。

充分发挥VNF位置独立性优势,并从全局视角考虑它们的部署位置可以让网络既简单又完善。例如,在传统的移动分组核心设计中,为将成本最小化,会集中部署分组数据网关(PGW)。这使得所有流量(各类设备间流量)都要转发给PGW,该实施方案增加了拥塞、时延,并消耗了不必要的带宽,显得非常低效。通过创建多个VNF并将它们部署于靠近eNodeB的边缘位置来扩展PGW可以实现高效的设计。

这种设计思路在传统网络中是不可行的,因为部署大量PGW设备将造成极高的成本。但在NFV网络中,这是一种极具可行性的选择。在数据网络中也面临类似的问题,即需要在运营商核心网中的每个接入点部署分布式拒绝服务(DDoS)检测及清洗设备,如图所示。

在传统网络中,这种部署方案所需成本高昂,但在NFV网络中,在不增加成本及改变设计的情况下,则可轻易实现。

通过优化设计,可以将VNF部署在最优的位置上,从而构建一张带宽利用率高、延迟低、抖动小、拥塞少的优质网络。

在传统网络中,通常会根据业务需求、资源使用率及投资维护成本等多方面因素对流量实施调度优化。以多协议标签交换流量工程(MPLS-TE)中的隧道技术为例,运营商使用该项技术平衡网络资源使用率,从而缓解某区域内因流量突增造成的高负荷问题。通过调度一些流量到网络负荷较低的区域,可以使流量热图分布均匀。

此类技术降低了网络性能(增加延迟)并增加了维护复杂度(隧道网络会增加故障排查与日常管理的难度),这与节约运营和部署成本的建网目标是背道而驰的。然而,采用NFV技术则可基于时间、需求以及使用率等因素对网络能力进行动态调整。例如,在一天特定时段内的某个区域流量负荷总是较高,我们就可以根据需求动态调整该区域的网络能力。

伴随物联网(IoT)、智能设备、超高清(UHD)视频流等业务的兴起,网络流量呈指数级增长,而基于位置的网络的重要性也愈加显著。由物联网节点产生的数据预计将达到 400ZB。在这种数据驱动型经济中,对物联网源数据的分析是个漫长的过程,因而采用远端的云服务进行处理并不是有效之举,最接近数据源的位置才是处理、使用、分析与响应此数据的最佳位置。

上述思路催生了雾计算和雾联网,即主张数据源与网络功能、计算单元间位置接近的技术,以便更好地获取这些数据。由于大多数数据来源于移动设备,如智能设备、智能汽车、自动化列车等,这就要求雾联网资源能够根据时间、需求和环境在不同地点间移动。这也使得网络部署的位置与时间成为影响NFV设计的必要条件。

云计算是指利用分布式计算资源实现对数据存储、管理、处理以及访问的技术。这些计算资源通常使用因特网进行互联,并且可以共享应用程序及数据库。云计算支持从任何地点访问数据,因此无须保留本地存储服务器。通过使用基于云的基础架构及网络服务有助于减少构建私有计算、网络基础设施平台的投入。用户仅需要通过因特网访问这些云资源的能力。

例如,Google Drive可以为个人用户提供照片存储、协同办公等云应用服务。亚马逊AWS可以为企业用户提供云基础设施服务。事实证明,云计算可以降低运营成本、提升协作与高可用性。

云服务的缺点在于处理和存储单元通常远离数据源。在大数据应用中,产生和存储的信息量巨大,人们更倾向于在靠近数据源或客户端一侧处理大量数据,而不是将其发送至远端云平台处理。这样可以节省网络带宽并降低时延,从而达到实时分析的效果。从远端云平台抽离部分云资源,并将其部署于更靠近数据源一侧的思路催生了雾计算和雾联网概念。

10. 生命周期管理与授权许可成本

由于多种原因,考虑VNF的生命周期显得非常重要。生命周期各阶段如下图所示,包括实例化、监控、扩容、更新与清退。

当不再需要某个VNF时,该VNF所使用的硬件资源就可以完全释放出来或进行缩容。这些被释放的硬件资源可供其他VNF调用。

最佳生命周期管理的另一个诉求源于VNF的授权许可成本。在传统网络中,设备提供商将硬件产品作为其营收关键点,而在NFV网络中,这方面的关注已转向软件产品,软件提供商采用授权许可或服务的模式进行收费,收费方式通常围绕功能、实例数或能力等维度。

在进行网络规划时,VNF实例数、容量及功能都是必须考虑的重要因素。东西海岸区域各自所需的VNF实例数应大致相当,在此前提下,运营商就可以借助编排系统,在不同区域错时复用同一组VNF实例的授权许可,从而达到降低许可成本的目的。

11. 多租户

服务器虚拟化技术促进了多租户场景的广泛应用。在NFV设计中,可以将业务需求相近的用户归为同类型租户。例如,需要二层虚拟专用网(L2VPN)或三层虚拟专用网(L3VPN)的用户就可以分为两组租户。同样地,我们可以将相同功能需求的多个用户归为同一类基础架构租户。

多租户的另一层含义是能够为用户提供不同级别的服务,具体取决于SLA、功能与隔离性等多种要求。例如,某个业务的VNF为了达到所需性能,需要为其分配独享CPU或网卡资源,这就是基于预期资源需求因素的VNF部署。在NFV设计中,可以依托共享基础设施同时创建多个并发的VNF,从而满足不同租户对规模和SLA的要求。

12. 自动化与可编程

系统是否支持自动化决定了NFV提供的大多数优势能否发挥出来。在提及的多种设计要素中,均隐含了对自动化工具或脚本的支持需求。

这些自动化引擎需要预定义工作流与策略,以实现根据特定条件执行所需操作。NFV网络设计应遵循策略驱动网络的思想,以此实现自动修复已知问题、自动处理各级别故障以及自动弹性伸缩的能力。

对VNF的参数调整或重新配置也应支持自动化。在典型的NFV场景中,VNF可能来自跨多个供应商的异构产品,只有具备通用可编程接口的VNF才有可能实现自动化能力。自动化能力的缺失会削弱NFV网络所带来的优势。

13. DevOps

DevOps是英文Development(开发)与Operation(运维)的组合缩写,是指产品开发与运维工作的合并和协作。在传统模式中,产品的开发与运维是相对独立的串行环节,而在DevOps模式下,它们是并行交互与推进的过程。

NFV变革得益于软件开发领域的两个重要趋势变化,即DevOps与开源软件,它们取代了被视为阻碍创新的专有软件开发方法。NFV网络设计与DevOps及开源软件开发模式完美兼容,NFV网络需要随时适应新的变化,并在设计与部署阶段快速整合这些变化。

总之,NFV网络设计标准并不是“一刀切”的方法,灵活的特征允许它根据业务需求进行定制化调整。

基于上述设计要素构建的网络具备以下优点:

  • 降本增效;
  • 最优化;
  • 全新业务维度;
  • 更快的创新和解决方案;改善用户体验;

五、网络基础设施与服务虚拟化

1、网络虚拟化设备模型

网络设备的虚拟化技术从最初的多台物理网络设备虚拟成一台逻辑网络设备,即N∶1的虚拟化组合技术到一台物理网络设备虚拟化成多台逻辑网络设备,即1∶N的虚拟化组合技术模型。又发展了将这两种虚拟化技术进行整合的网络设备形态,即N∶1∶M虚拟化组合技术,这3种技术给数据中心带来了完整的虚拟化方案。

将网络设备通过N∶1虚拟化后作为整体资源,通过1∶N虚拟化技术根据应用创建新的逻辑设备和资源部属。同时,用户可以根据该应用的流量和应用安全等特点联动,即利用设备提供的自动化功能进行网络资源的动态部署,实现一个更加可靠、更加灵活和更易于扩展的网络。

1. N∶1虚拟化设备组合技术

通过N∶1虚拟化将多台网络设备虚拟化成一台逻辑设备,网络设备间的协同工作转化为设备内的处理。从而提高网络管理和运行效率,让网络回归简单。

N∶1虚拟化示意:

另一方面,N∶1虚拟化使逻辑设备具备了强大的扩展能力。当网络需要扩容时,N∶1虚拟化模型可以在不改变网络拓扑的前提下在现有的逻辑设备中动态增加物理设备,使整个逻辑设备拥有更多的设备端口数、更大的带宽和处理能力。

如下图所示为常见的网络组网,使用多业务传输协议(Multi-Service Trans Transport Protocol,MSTP)和虚路由器冗余协议(VRRP)等来支持链路冗余和网关备份。

使用N∶1简化组网示意:

这种组网在各种场合均会使用,这里仅以汇聚层与接入层之间的组网为例。 

使用N∶1虚拟化技术后,汇聚层的多种设备成为一种单一的逻辑设备,接入设备直接连接到虚拟逻辑设备。简化后的组网不再需要使用MSTP和VRRP协议,简化了网络配置;同时依靠跨设备的链路聚合,在成员出现故障时不再依赖MSTP和VRRP等协议的收敛,提高了可靠性。

在具体技术实现上华三通信(H3C)技术有限公司的相关技术是智能弹性架构(Intelligent Resilient Framework,IRF);Cisco 采用的是 StackWise 及虚拟交换系统(Virtual Switching System,VSS)技术;Juniper采用的是虚拟底盘技术。

主要技术实现包括如下几个方面:

1)跨物理设备的聚合

N∶1 虚拟化中采用的新型聚合技术使用户可以将不同物理设备上的物理以太网端口配置成一个聚合端口,这样即使某些端口所在的设备出现故障,其他正常工作的成员设备会继续管理和维护剩下的聚合端口。

如下图所示,流向网络核心的流量将均匀分布在聚合链路上。

当某一条聚合链路失效时,分布式链路聚合技术能够将流量自动重新分布到其余聚合链路,以实现链路的弹性备份和提高网络可靠性。

2)物理设备间的协议状态互为备份

各物理设备加入逻辑设备后,协议动态运行数据在物理设备间同步。主设备出现故障时其他物理设备有协议的状态信息,能快速恢复并保持邻居设备的协议连接。

以路由协议为例,如下图所示。

网络使用的是优先开放最短路径(Open Shortest Path First,OSPF)路由协议。当主设备收到邻居路由器发送过来的修改报文时,更新本地路由表的同时它会将更新的路由表项及协议状态信息发给其他所有物理设备。其他物理设备收到后会更新本地的路由表及协议状态,以保证逻辑设备内的各个物理设备上路由相关信息的严格同步。

当主设备故障时新选举的主设备可以接手旧主设备的工作,它接收到邻居路由器过来的OSPF报文后会将更新的路由表项及协议状态信息发给其他所有物理设备,并不会影响OSPF协议的运行。此时域内路由协议不会随之出现中断,二三层转发流量和业务也不会出现中断,从而实现了不中断业务的故障保护和设备切换功能。

3)环形拓扑连接使网络更可靠

如下图所示,4个接入网络通过跨设备聚合方式连接到逻辑设备,逻辑设备采用环形拓扑方式连接。

环形拓扑连接可以做到任何一台设备、设备端口和连接线故障不影响其他物理设备间的流量转发,提高了网络高可靠性。 

2. 1∶N虚拟化设备组合技术

1∶N 虚拟化技术将一台物理设备虚拟化成多台逻辑设备(所有逻辑设备都表示1∶N 的逻辑设备概念),如下图所示。

划分出来的逻辑设备具有单独的转发表项和芯片资源,可以单独组网或配置等网络业务所需功能。

一台物理设备虚拟成多台逻辑设备分别承担不同的网络应用,在保持原有网络的独立性的同时降低了硬件资源消耗,提高了网络设备的利用率。各逻辑设备之间严格隔离,可以将安全级别不同的业务划分到两个逻辑设备中。通过虚拟化隔离单独管理和配置,不同业务之间不会相互影响。

在具体技术实现上,H3C 公司采用的相关技术是多租户设备环境(Multitenant Device Context,MDC);Cisco采用的是虚拟设备环境(Virtual Device Context,VDC)技术。各技术实现的功能上是一致的,以下以MDC技术为例来阐述1∶N虚拟化的技术特点。

1)网络操作系统的虚拟化

网络操作系统作为管理网络设备的基础对网络设备的硬件资源和软件资源进行分层管理。

1∶N 虚拟化技术首先需虚拟化网络操作系统,目的是做到每个逻辑设备都有支撑自身系统运行的硬件和软件资源,包括独立的接口和CPU等,以及独立维护的路由和转发表项。

MDC 技术采用基于操作系统级别的虚拟化技术,在操作系统内核模拟出一个个运行应用程序的容器。操作系统级别的进程管理、内存管理和磁盘管理基于每个 MDC 进行了虚拟化管理,如下图所示。

对比目前服务器虚拟化时通常采用的全虚拟化技术(在Host操作系统和底层硬件之间建立一层抽象系统,各Guest操作系统无须修改代码,通过CPU支持虚拟化将Guest操作系统的高权限指令Trap到抽象系统中的代码中代理执行)和超虚拟化技术(修改Guest操作系统以适配Host系统),操作系统级的虚拟化由于不存在Guest系统到Host系统的转换,因此调度性能上最好且耗费资源最少。

2)分布式物理设备的逻辑设备划分

在核心层和汇聚层的网络设备一般采用分布式设备来提高设备的流量处理能力和性能规格,典型的分布式设备模型包括多块主控板和多块接口板。支持虚拟化后每块单板都可以支持多个逻辑设备的启动,可将端口资源在多个逻辑设备之间划分。

划分后的逻辑设备也同样为分布式设备形态,能操作分布式资源并且相关的数据也与独立的分布式设备一样同步和备份,如图所示。 

数据只在逻辑设备所属的单板间同步,可以将 I/O 单板只划分给某个逻辑设备。由于该单板上的资源只为一个逻辑设备所有,因此这样I/O单板能达到作为单独物理设备时的规格。

3)独立的配置管理平面

从管理设备业务功能的角度来看,每一种逻辑设备就是一台独立的设备,用户可通过属于逻辑设备的虚拟网管口直接登入逻辑设备管理和配置。

逻辑设备所产生的系统告警信息可以单独输出到部署的告警服务器中每种逻辑设备有单独的配置文件,支持独立的重启和恢复配置,如图所示。 

4)故障隔离

由于采用操作系统级的虚拟化技术后所有逻辑设备都有独立的进程和网络转发数据,因此通过合理的资源划分,甚至有独立的转发芯片资源和独立的 CPU 资源。基于此,一台逻辑设备的故障可以控制在本逻辑设备内,不会影响其他逻辑设备。

如下图中所示的MDC1逻辑设备内的某个服务的故障可能导致该逻辑设备内的该服务不可工作,但其他逻辑设备还能继续运行提供服务。 

3. N∶1∶M虚拟化设备组合技术

N∶1 的虚拟化和 1∶N 的虚拟化从技术角度采用了相反的实现技术,但可以将二者的技术融合,实现将多台物理设备通过N∶1虚拟化技术虚拟成一台逻辑设备。再将此逻辑设备通过1∶N技术虚拟成多台逻辑设备,这种组合简称为“N∶1∶M虚拟化”,如图所示。

以IRF+MDC组网为例,这种N∶1∶M的虚拟化的明显特点是整合层次和降低运营成本。利用IRF+MDC技术可以对数据中心设计进行多层次的整合,整合可以分为如下3种方式,如图所示。 

水平整合:将汇聚层的4台设备整合成两台物理设备,将两台物理设备互为主备为接入网络服务。

垂直整合:将核心层和汇聚层的设备整合,物理设备上分成两个 MDC 分别为核心层和汇聚层服务。

混合整合:将两台物理设备组成IRF逻辑设备上划分为3个MDC,两个MDC管理接入网络,做到接入的业务隔离。一个MDC连接核心层,满足清晰的分层策略需求。 

2、网络基础设施与服务虚拟化

一种常见的观点是VNF产品可以取代传统路由设备的所有功能。很显然,这是一种完全错误的观点,比如高速包转发的功能就不适宜采用NFV架构实现。

传统网络基础设施中,适合NFV化的主要是基于CPU、内存处理任务的网络功能,如图所示。

诸如架顶交换机(ToR)、骨干交换机、骨干路由器以及NFVI的互联接入设备(POP)的主要功能是对网络中的数据包进行转发与聚合,它们在NFV网组建初期并不适合作为演进对象。然而,像BGP路由反射器、运营商与客户间的边缘路由器、语音或视频类网关设备,由于它们的部署位置更加灵活且依赖于计算单元(CPU、内存)进行工作,因而此类设备更适宜于NFV化。

VNF产品基于将网络软件迁移至虚拟化环境的思路而设计,设备厂商倾向于将传统的设备功能移植到VNF中,而缺少利用NFV优势进行整体设计的思考。

伴随技术的日益成熟,当前的VNF产品已更加关注虚拟化功能本身,比如对虚拟化部署与管理功能的优化,有关NFV的原型与标准也在不断完善。

1. BGP虚拟化

在运行BGP协议的网络中,路由反射器(RR)处于非常关键的位置,它有助于管理大型网络的路由策略,并起到缓解边缘设备压力的作用。例如,在地理位置分散的北美网络中,会部署多对路由反射器(东、西、北、南与中央POP点)以更接近边缘路由器,每对路由反射器根据其所在区域的位置确定路由策略。对于一台路由反射器,它可能需要同时提供L3VPN、L2VPN以及IPv6等多种服务,这会导致这台设备的整体工作效率下降。

此外,鉴于RR在网络中的关键作用,通常会考虑对其进行冗余设计,这意味着网络中的路由反射器数量将增加一倍。而在传统网络中,当此类设备遇到资源瓶颈(如内存或CPU性能)时,唯一的选择就是更换更高级的网络设备。

RR是BGP网络中的一种控制平面功能,主要依赖于CPU、内存等计算模块处理,因此,BGP路由反射器适合NFV化。由于RR仅实现控制平面功能,因此只要对内存资源进行扩展即可增加路由表的存储能力。我们可以将路由反射器的每种服务分别进行虚拟化,并创建相应的虚拟路由发射器(vRR),它们具有以下优势。既可以集中地部署于同一台宿主机内,也可以分散地部署于不同的宿主机内。可以动态地迁移至它们所服务的边缘设备区域附近。更加可靠的冗余副本(位于不同的宿主机之上,甚至地理位置也完全分开)。

下图所示是采用NFV技术实现的BGP RR功能,该方案的架构简单而清晰,且无任何性能方面的损耗。

RR间的操作相对独立,考虑到系统的高可用性,同时又兼顾了灵活与可扩展性。

基于VNF弹性能力可以随时满足系统的扩容需求,而在传统网络中,这需要对设备进行整体替换或升级。对于一组全新的服务需求,人们采用NFV技术可以快速地部署对应的BGP RR设备,大幅缩减了系统上线时间。根据VNF冗余机制,可以在业务零中断的情况下完成对系统的升级或迁移。

2. PE设备的虚拟化(vPE)

运营商PE设备通常会配置多种业务,功能丰富,并能为多个客户提供服务。这种集多种业务于一身的设备也被称为多业务边缘设备,它虽然可以有效地节约运营和投资成本,但也存在一些缺点。比如,在设备整体性能不变的情况下,由于其提供了多种服务能力,因此当某种功能(或客户)消耗了较多设备资源时,其他功能(或客户)就会受到影响。

类似地,在现网设备上添加新功能或服务也存在风险,因为此类更改可能会影响设备的性能现状。此外,从高可用性的角度来看,如果客户侧未采用双机冗余机制,那么在本端PE侧发生的任何故障都有可能影响到多个客户或业务。

上述问题都可以借助NFV技术加以解决。在NFV模型中,PE设备不需要同时兼顾客户和业务多种维度需求。单个VNF可以仅关注某种业务实现,或某个客户需求,当然也支持两者兼顾的情况。

如下图所示,来自3个客户的L2VPN、L3VPN与Internet(INET)业务需求可以分布式地部署在独立的VNF之上。可以独立地扩展与管理这些VNF,可以加载同一客户的不同业务,或不同客户的同一业务。

在图示中,如果客户C想要增加一个L2VPN业务需求,可以在空闲的服务器上新建一个VNF用于加载该业务,而不会对现网运行的VNF造成任何影响。除了支持PE的基本功能(如标签处理任务)外,这些基于VNF技术的vPE也支持独立扩展、增强、调整、管理与升级。

值得注意的是,与vRR(仅涉及控制平面的功能)不同,vPE需要兼顾转发与控制任务的处理,这使得vPE的包处理性能、延时与抖动等指标都很关键。因此,除了对PE基本功能的支持外,VNF厂商也必须在vPE产品中考虑对服务质量(QoS)、路由等功能的强化。

NFV解决方案也消除了单点故障隐患,该问题通常会影响到多个业务或客户。基于虚拟化技术的隔离特性,单台VNF的故障对大部分客户或业务而言是无感知的。甚至可以通过新建一个VNF来快速恢复受影响的业务。

3. 客户端设备的虚拟化(vCPE)

在传统的企业网场景下,分支机构的网络均需要接入总部网络中,并由总部管控分支机构间的网络通信。分支机构或总部的客户端设备都是具备路由、NAT与QoS等功能的专用硬件,它们通常由运营商负责管理,也称为托管CPE,如图所示。

如果客户希望添加新的功能(如防火墙),或者运营商希望向其CPE产品中引入新的业务(如视频会议),则在大多数情况下,运营商可能需要对现网大部分设备进行更换或升级。这使得新业务的实施成本较高、部署周期较长,导致新业务上线时间与收入均受到影响。 

如果在企业网中引入虚拟CPE(vCPE)设备,可以将部分高级网络功能集中至运营商网络中实现,而将简单的L2/L3功能部署于各分支机构,如图所示。

目前,大部分运营商都在构建更加弹性、可控的数据中心,以便提升灵活部署业务的能力。基于VNF技术的CPE设备不仅可以动态地添加防火墙等新业务需求,也可以很便捷地满足客户对业务连续性扩展的要求。

这种高效的新业务部署模式让运营商在提升客户感知与增加业务收入方面都有显著的进步。 

4. 虚拟负载均衡器

当采用单个服务器部署网站或数据库对外提供服务时,伴随外部客户端的访问请求持续增长,服务器侧或许会不堪重负。首先服务器自身的资源(CPU/内存)可能成为限制,然后是其上行链路的可用带宽开始出现流量瓶颈,最终都会导致其对客户端的响应延迟,甚至是无响应。

为了克服这些问题并避免单点故障(服务器及其网络),通常采用负载均衡架构部署上述应用服务器。在这种客户端与服务器数据交互的业务场景中,负载均衡器在管理与分发流量方面起到非常重要的作用。

基于负载均衡技术,应用程序的业务流量可以分发至后台多个服务器上进行处理,从而降低单台应用服务器的负荷,提高了响应速度并消除了单点隐患,如图所示。

人们可以根据应用程序或服务器的资源利用率等相关数据实现对负载均衡算法的动态调整。

服务器虚拟化技术使得单台虚拟机能以纵向扩展的方式实现弹性伸缩,而负载均衡技术则令多台虚拟机以横向扩展的方式实现资源调度。

就负载均衡器本身而言,它也可以基于VNF技术实现按需创建与配置,这种部署模式也充分地利用了承载虚拟机的物理服务器资源。虚拟负载均衡器支持在其可控的任何物理服务器上创建应用程序对应的虚拟机,并实现流量牵引。虚拟负载均衡器还可以根据用户的需求灵活地管理与调度业务流。

下图展示了基于虚拟负载均衡器的部署拓扑图:

5. 三网融合业务的虚拟化

在面向公众类的三网融合业务(宽带、VoIP与视频业务)中也可以引入NFV技术。用户侧CPE设备既可以作为家庭网关与VoIP语音网关,也可以作为机顶盒使用。

传统家庭CPE设备有限的功能与性能导致其升级较为困难,即使对这些设备完成了升级,运营商也需要进行大量的验证工作,因此运营商通常会面临现网大量用户使用较早版本CPE设备的问题。替换现网老旧CPE设备需要投入大量资金,但与此同时,如果继续使用这些设备,可能会导致新业务无法在这些设备上得到支持,最终影响运营商的业务收入增长。

引入NFV技术后,可以较好地解决上述问题。基于NFV技术的家庭CPE设备可以采用与厂商无关的通用硬件实现,并在其上加载提供基本服务功能的VNF,其余大部分功能可转移至运营商数据中心内的服务器上。

如下图所示,加载在运营商数据中心服务器之上的VNF不仅可以部署现有业务,也可以灵活扩展新的业务。

用户基于云计算技术访问和管理家庭网关,其业务使用感知会得到显著提升。对于运营商而言,诸如家庭防火墙、个人媒体存储以及云端视频录像等新业务会层出不穷,并在市场上广受欢迎。

6. 内容分发网络(CDN)设备的虚拟化

大流量视频业务是给当今网络带来较大压力的应用之一。这主要是由于在过去几年中,平板电脑、智能手机、笔记本和电视等终端的数量急剧增加,且增强的视频功能(如录制、暂停、回看以及画中画等)也导致了视频流量的突增。

现如今,人们对高清质量视频业务(HD720p、UHD 4K、超4K超高清)的需求再次令网络压力倍增,因为超高清(UHD)视频消耗的带宽几乎是过去标清视频的9倍之多。

将媒体服务器与缓存设备部署于更靠近用户的位置是缓解网络基础设施压力的一种简单方案。Akamai、Google、YouTube和Netflix是视频流量的主要源头,他们试图将缓存或内容分发服务器放置在运营商网络的最佳位置。Netflix的OpenConnect、Akamai的Aura项目都是很好的案例。

最佳位置要求不仅可以减少对运营商的网络带宽占用,也能对内容提供商应用进行有效的缓存。但是,确定最佳位置是一个极其复杂的过程,因为需求可能会在数量或位置上随时发生变化,特别是在移动视频流量占比较大的场景。所以当运营商网络中部署了来自不同内容提供商的超大容量缓存服务器时,必然导致网络更加复杂以及资源的浪费。

NFV技术为缓存服务器带来可迁移与弹性的优势。采用NFV技术,可以将这些服务器部署在离用户最近的位置,也可以灵活地调整它们的缓存或容量大小。如有必要,甚至可以将多台服务器部署到一个区域内。在直播或特殊应用场景下,可以动态扩展虚拟化缓存服务器资源,而在非高峰时间,又可以将这些资源释放出来,被其他场景使用。

3、网络安全虚拟化

诸如防火墙、入侵检测系统(IDS)、DDoS检测与清洗、深度包检测(DPI)等网络安全功能采用虚拟化技术后,可以产生很多附加价值。基于NFV的优势,这些功能的VNF实例可以部署在网络中的任意位置,并提供了传统网络无法实现的灵活性以及按需扩展性。

1. 网络基础设施安全的虚拟化

保护网络基础设施免受攻击,尤其是分布式拒绝服务攻击,是网络安全性和可用性的重要方面。DDoS攻击包含高并发量(称为流量攻击)或协议漏洞(称为应用层攻击)等多种类型。应对这些攻击行为首先要及时并准确地检测到它们,然后对这些可疑流量实施清洗操作。

考虑到DDoS攻击的类型,检测与清洗功能应尽可能位于网络边缘位置或靠近受保护的网络资产,如服务器或应用一侧。然而,将检测与清洗设备部署在此类位置较为分散的区域会增加投资成本,并给网络规划者带来较大的设计难度。

网络功能虚拟化技术可以突破这些障碍,将负责DDoS检测与清洗的VNF实例部署在网络中的各种位置或设备(包括防火墙、路由器和服务器)上。在不改变现网规划设计的前提下,通过服务链机制,可以轻松地将VNF重定位并添加至流量路径中。

2. 防火墙的网络功能虚拟化

企业或运营商通常会将传统防火墙设备部署于网络边缘位置,用于阻隔外部异常流量对其内部基础设施系统的访问。

为了减少设备需求量,这些防火墙会被放置在网络边界处,但是当所有流量经过它们时,防火墙可能会成为整个系统的瓶颈点。而基于NFV技术,可以有效地改善防火墙的功能、性能以及部署位置等方面。虚拟化防火墙功能可以在更靠近主机或网络边缘的位置进行部署。面临流量突增的情况时,虚拟防火墙可实现弹性伸缩。运营商可以自由地选择任意厂商的防火墙VNF方案,该功能是完全解耦的。

3. 入侵防护的网络功能虚拟化

入侵检测系统(IDS)用来实时监控网络中的可疑流量,而入侵防御系统(IPS)则用来阻断恶意攻击流量。这类设备通常需要频繁更新或升级,才能确保提供最新的安全防护能力,而传统物理形态的设备几乎无法满足这种要求。

NFV技术则成为此类应用的最佳实践。例如,借助NFV的弹性伸缩特性,可以在特定时间扩展网络中的IPS处理能力。另外,NFV技术还可以显著提升此类网络安全功能的升级速率,采用创建新的VNF并将其连接至网络的方案,可以在不中断业务的情况下,对安全软件进行频繁更新。可实时更新的入侵防御系统能够为网络基础架构提供更好的安全特性。

目前可以提供该功能的产品包括Cisco的下一代IPS(NGIPSv)以及IBM的安全网络IPS(VNF型XGS)。

4、移动通信网虚拟化

近年来,人们对移动网络服务的需求呈指数级增长,这也催生了对移动网络质量提升的要求。这些要求促进了移动网络技术的持续发展及演进,并不断转向支持新业务的全新标准技术。诸如第五代(5G)移动技术的创新会对网络架构进行重构演进,并带来新的业务模式变化。

一直以来,移动运营商都在努力构建灵活的网络基础设施,以便在不产生大量重复投资和系统升级的情况下实现业务规模发展的目标。考虑到NFV的技术特性,在移动通信网络中很有可能率先引入这种技术。

下图显示了长期演进(LTE)架构的全局视图,涵盖了移动网络中多个重要的功能模块。

在移动通信网中,主要有以下3个领域是适合引入NFV技术的。

  • 演进分组核心(EPC)的虚拟化。
  • IP多媒体子系统的虚拟化。
  • C-RAN的虚拟化。

1. 演进分组核心(EPC)的虚拟化

EPC网络主要包含移动管理实体(MME)、服务网关(SGW)和PGW等多个模块,每个模块都涉及多组功能。在传统部署模式中,单台设备会集多组功能于一身。例如,传统PGW设备内置了NAT、IP分配、合法监听、防火墙与包检测等多种功能,而这些功能通常是独立的,不具有任何相关性。

但在这种模式下,如需对设备内置的某项功能进行更新,则必须对设备整体实施升级操作。仅凭这一点,就体现了在EPC网络中引入NFV技术的必要性。在SGW、PGW、MME各类网元中,每种网元的内置功能均可以拆分出来,作为独立的VNF实体进行动态伸缩、升级或更新操作。

移动运营商也因此获得了在网络局部范围内选择任意厂商最佳方案的可能性。在传统硬件网络中,由单一设备商提供的解决方案演变为多设备商组合解决方案。

这种虚拟化解决方案也被称为虚拟EPC或vEPC,下图展示了LTE系统架构在vEPC场景中的部署拓扑。

诸如高可用、弹性、模块化、本地化等NFV技术带来的优势都会在vEPC网络中体现出来。例如,PGW是位于数据平面的集中功能实体。所有流量,比如两个用户设备(UE)之间的流量,都必须通过它转发。同时,它也需要被部署在靠近互联网边界的位置。

NFV可为这种互斥的关系组合提供一种有效的解决方法,它将PGW部分功能抽离出来,部署在远离互联网边界而更靠近用户的位置处。这减轻了网络上不必要的流量负荷,减少了用户间流量的总体延迟,并简化了网络。对于传统硬件设备而言,即使其内置的部分功能根本未被使用,运营商也必须为设备的所有功能进行付费。而在NFV这种模块化场景下,运营商完全可以进行按需付费。

总体而言,在移动分组核心网中引入NFV技术不仅能降低投资和运营成本,而且能简化网络。NFV演进可以分阶段开展,混合实现也是可以接受的临时过渡方案。

例如,可以首先将实现MME子功能的全新虚拟化MME(MME-v)与传统物理MME设备并行接入,然后再将现网eNodeB设备逐个切换至MME-v下,最终被其纳管。在某项子功能完成NFV化后,再考虑对系统内其他可实现VNF的子功能进行优化设计。 

2. IP多媒体子系统的虚拟化

为了具备电路交换域的相关功能,IP多媒体子系统(IMS)被添加进EPC网络中。IMS模块由多种子功能组合而成。例如,IMS通过将SIP服务器与代理相结合实现了呼叫会话与控制功能(CSCF),又通过将多方呼叫与多媒体会议功能相结合实现了多媒体资源功能(MRF)。

传统IMS与传统EPC面临的问题类似,即对某个子模块的扩展或升级,将迫使运营商对IMS硬件设备实施整体替换。同时,还要兼顾现网EPC基础设施的平稳运行,并满足业务增长的需求。而NFV解决方案可以将硬件与软件分离,并以模块化的方式支持运营商从一系列厂商中选择最优方案。

这种模式为移动运营商选择虚拟化IMS功能(IMS-v)提供了非常好的用例。

3. C-RAN的虚拟化

在LTE中,无线接入层被称为演进的UMTS陆地无线接入网(E-UTRAN),基站节点被称为演进NodeB(eNodeB或eNB)。eNB具有一至多个射频拉远头(RRH),其主要实现小区覆盖相关的所有无线功能。RRH连接到基带处理单元(BBU),并由BBU对信号进行处理,最终连接至EPC网络。在3G网络技术出现以前,BBU与RRH共存于同一设备内,直到3G网络技术出现,二者被拆分,一个BBU可以通过连接多个RRH扩展其无线信号覆盖区域。

目前,在引入集中式远程接入网(C-RAN)架构后,BBU被移至中心局(CO),并允许其通过暗光纤或其他的类似方式连接到多个RRH。

这种设计为移动运营商带来了诸多优势,首先是单个BBU可支持的小区数量显著增加,其次是借助多点协同技术允许用户接入多个RRH,并以更优的方式利用系统能力。另一方面,这也意味着BBU在网络中扮演着更重要的角色,因为其需要为更大的区域和更多的客户提供服务。综上,BBU是一种非常适合NFV化的设备,它也支持协议级别的弹性部署方式(即每个协议作为独立的VNF实体)。

当然,即使将BBU整体作为单个VNF实体进行部署,其弹性伸缩的特点也可以为网络带来较好的经济效益以及高可用优势。NFV技术对缩减RAN/C-RAN的运行成本发挥了重要作用。C-RAN部分通常在移动网络的投资与运营成本中占比较大,其中一个原因是这些系统必须过度配置以满足峰值需求。基于NFV技术的BBU部署方案可以有效地解决上述问题。

伴随时间、日期或事件的改变,域内的用户数量也会发生变化(客户端都是移动的),虚拟BBU可以按需进行弹性伸缩调整。在同一中心局内的不同BBU间也可以共享底层硬件资源。此外,当需要添加或修改控制层协议以适配新一代移动设备时,仅需对VNF进行简单的软件升级,而无须对虚拟BBU进行整体替换操作。

下图展示了包括BBU、RRH等功能在内的eNodeB视图,并对物理专用BBU与虚拟化BBU进行了比较。

5、设备虚拟化挑战

NFV 虽然具有诸多优势,但同时也带来了一系列挑战。如果不考虑限制、范围以及潜在盲点,有关NFV设计的讨论就不够全面。解决这些问题以及尽量避免或减少它们产生的影响至关重要。

与传统网络面临的挑战相比,这些挑战是全新的,挑战有以下。

1. VNF吞吐量与延迟性能

从网络方面来看,VNF可提供的数据吞吐量与传输速率能力都非常关键。在传统硬件中,采用定制化的专用集成电路(ASIC)与处理器芯片实现高吞吐量性能,这些芯片能够以非常高的速率处理数据包。

另一方面,这些定制化的ASIC芯片与设备物理接口紧密连接,不涉及任何中间处理器,从而提升了数据包的传输效率。传统硬件架构将大部分数据包交由ASIC等定制化芯片内的固件程序处理,而非处理路径漫长的外部软件程序。对于硬件无法处理的特殊场景,基于软件的数据包处理方法是以降低处理性能为代价实现的。

相比较而言,NFV 以软件为中心,它没有专用的硬件处理引擎,这就使其处于相对劣势的一方。数据包采用软件方式处理,即由VNF软件程序来处理数据包,而这些VNF部署在采用通用CPU芯片的硬件服务器之上。为了弥补专用芯片缺失造成的不足,我们使用特殊技术来提升VNF内置的数据包处理算法性能,并对网卡设备驱动程序进行优化。

尽管如此,必须强调的是即便利用这些技术缩小了差距,在处理速率的性能方面,基于软件的数据包转发技术仍然落后于基于硬件的处理技术。

抖动与延迟也是网络中需要重点关注的性能参数,它们对于时间敏感型流量(例如语音与视频)或时间敏感型应用(例如移动分组核心中的会话边界控制器,SBC)可能非常重要。如果VNF可用于处理数据包的虚拟CPU不是独享的,那么即使对数据包目标查找、应用数据路径等功能算法进行了大量优化,延迟可能仍然是不可预测的,这就会引发数据流量中的抖动与高延迟现象。

虚拟化增加了另一层开销,也会影响到实际吞吐量性能。它作为物理机与虚拟机之间的中间层,在带来资源共享优势的同时,也会降低数据包传输速率。当VNF在Hypervisor层进行通信时,常规方法是使用虚拟网卡,而非物理网卡工作。

之后,虚拟网卡驱动程序再与物理网卡驱动程序进行交互。另一种方法是基于半虚拟化技术实现的,它可以让VNF直接调度使用物理网卡,这种方法也称为“直通模式”,它有助于消除虚拟化开销,但却要求VNF支持与设备物理接口的对接。

下图展示了传统硬件与VNF在性能方面的差异:

2. VNF实例化时间

通常VNF的启动时间要快于专用设备,因为VNF没有硬件启动的过程,仅需对软件部分进行加载。但是,虚拟机启动和运行所需的时间也不应被忽视。

VNF应用程序(在虚拟化环境中)的初次或重新启动时间可能会根据多种因素而异,其中一些影响因素是可预计的,例如同样归为虚拟化技术的容器与虚拟机启动耗时就有些差异。

容器是一种轻量级虚拟化技术,因此它与虚拟机相比,在启动、重启、释放等方面的耗时较少。另一些影响实例化或删除时间的因素就无法事先估计了,比如主机的CPU负载或磁盘使用量较高,这些因素都可能减慢VNF的启动或删除时间。另外,管理与编排系统的响应时间也可能会是上述因素之一,因为它们也会受到资源限制的影响,从而无法实时启动或配置VNF。

上述这些影响VNF创建、配置和删除时间的因素是设计时需要重点关注的问题。许多设计原则(例如高可用与按天部署)要求实时创建或删除VNF,额外产生的秒级甚至是毫秒级延迟就会对设计产生重大影响。

3. 基础设施可靠性

多个供应商可以为基础设施构建带来灵活性优势,但考虑到多数供应商可能仅在其自身产品组件或最适合其产品的条件下进行验证,这也就带来了一些挑战。当将各层产品集成在一起构建基础设施时,其实际的可靠性可能与各个组件标称的可靠性差异较大。

最弱组件引发的任何可靠性问题都会影响整个基础架构。价格低廉的COTS硬件可能会以损失可靠性为代价。在为基础架构选择软件时,稳定性也是设计标准之一。

然而,稳定且强大的软件与可靠的硬件平台组合在一起后未必能转化为稳定的基础设施平台。对于不同供应商产品构建的基础架构,如要确保其稳定性,应当对集成后的环境进行测试验证。

除了内部集成测试之外,另一种可能避免上述风险的解决方案是从供应商处选择预先验证的产品。一些供应商将可扩展的硬件与完整的主机操作系统、Hypervisor软件进行绑定,提供了一种捆绑的可选包产品。这些可选包产品具有预先测试兼容性问题、供应商技术支持以及提供长期路线图等诸多优势。

对于供应商而言,这是一个抓住巨大NFVI市场的机会,而从运营商的角度来看,这是快速部署NFV的一种选择。例如,PowerEdge FX(Dell)和云服务平台(CSP、Cisco)都是类似的产品。

与NFVI相关联的网络设备(架顶式交换机、POP互联设备、汇聚路由器)在可靠性方面也会遇到类似的问题。类似地,可选择的解决方案包括内部集成测试,或者由供应商提供预先验证的捆绑可选包产品。目前可提供完全集成的NFVI系统(包括虚拟化服务器、存储及网络)解决方案的示例有FlexPod(NetApp)和Vblock(VCE)。

Vblock、FlexPod都是以Cisco UCS(统一计算系统)服务器、Cisco交换机、EMC或NetApp存储设备以及VMware的虚拟化软件构建统一的解决方案。供应商对此集成解决方案进行测试验证,并将其作为预测试解决方案产品提供给运营商或其他客户。

4. 高可用和稳定性

在传统网络中,硬件和软件的高可用性更多地局限于单个供应商解决方案,因为涉及大多数故障的高可用方案都由供应商验证。在NFV网络中,情况发生了变化,因为现在存在多个供应商的可能性,并且每个供应商可能具有不同的高可用性机制。

服务提供商可能仍然希望实现现有运营商级硬件提供的5个9(99.999%)可靠性标准,但在NFV环境下,运营商需要换个思路,基于软件弹性机制与不同于传统网络的架构来实现这一目标。

运营商级硬件和服务可提供高可用、容错与低故障功能。它要求系统的设计应具备一定程度的冗余性,从而达到弹性的效果。因故障产生的任何影响,可以在流量丢失的50ms内得到解决。

这种高可用性由系统启动和可用时间的百分比进行衡量。例如,99.999%(5个9)意味着系统的全年意外停机时间不应超过5.256min(全年为8760h)。99.99%(4个9)意味着全年累计停机时间为52min。

在NFV网络的多层架构中,运营商需要从不同系统中收集数据,关联所有信息并识别系统中的问题,这对维持系统的稳定性带来了挑战。任何一个组件(例如Hypervisor或主机操作系统)发生改变,都需要对所有的关联信息进行更新。

NFV系统的稳定性需要考虑来自服务器硬件、Hypervisor、主机操作系统与VNF等更多组件的可变因素,VNF的弹性、可迁移特点也为NFV系统的稳定性带来了全新挑战。

5. 许可费用

如前所述,NFV在网络领域的应用正在使网络设备供应商改变其定价结构,转向通过许可收取软件使用权。除VNF许可外,其他类型的软件组件可能也有自己的许可要求。

因此,NFV网络需要投入多种类型的软件许可,例如主机操作系统、Hypervisor、VNF、配置管理应用程序以及编排系统。

软件许可通常是有多种维度的,如下表所示。

该表中列举了一些潜在的许可选项作为示例,每种类型的软件许可都有免费选项可供使用,但通常这并不是首选,因为免费意味着缺少技术支持以及明确的路线图。

表中以粗体字标注的选项是供应商推荐的,同时各种软件许可也会根据各种授权方式进行收费。例如,供应商可以依据VNF的吞吐量、启用的功能、使用期限或VNF实际部署的应用收取不同的许可费用。

考虑所有软件许可叠加硬件后的总成本可能超过传统网络设备或单一解决方案的成本,许可成本成为选择这些单独组件时的重要考虑因素。

6. 多级许可管理

如上所述,NFV网络中的软件许可具有多层级、多维度特点。除了与成本相关的因素外,对于这些许可的管理也会带来各种挑战。供应商可以使用专有的许可模型来实施或执行这些软件许可。

软件许可的管理既可以内置于软件中,也可以基于外部管理服务器实现,只是增加的服务器会带来额外的复杂度。

如下图所示,Hypervisor的软件许可来自于软件内置的许可管理方式,左侧的VNF软件许可来自于云端的许可管理服务器,右侧的VNF软件许可来自于企业内部的一台许可管理服务器。在设计与实施的过程中,应充分考虑许可管理服务器对各种需求或者变化的支持。

7. 标准化演进

NFV功能模块间接口的标准化工作仍有待完善,管理工具、VNF以及操作系统间使用的通信协议也处于不断发展阶段。目前,大部分厂商的方案都基于特定环境进行定制,在异构场景下还可能面临兼容性问题,同时由ETSI提出的NFV MANO也并不成熟,这些现状均限制了NFV的普适性。

对于当前正在向NFV网络迁移的运营商而言,必然将面临演进过程中任何变化所带来的挑战。现阶段标准化的工具可能只是暂时的,随着时间的推移,市场会为我们选出最优的替代方案。

一个比较典型的案例是早期人们使用可扩展标记语言(XML)配置模型来替代命令行界面(CLI)配置方式,现如今业界又倾向于使用NETCONF/YANG或OpenConfig来替代XML实现网络配置功能。当前大多数供应商在选择API接口方案时,都倾向于南向(管理系统至VNF)采用NETCONF接口,北向(管理系统至业务支撑系统,如OSS、BSS等)采用RESTCONF接口。 

8. 安全

NFV不仅可以让网络安全域的粒度更加细化,还能够将防火墙、入侵检测(IDS)以及DDoS清洗等安全设备以VNF形态更便捷地放置在需要监控或清理的流量源附近,这些特点有效地改善了传统网络安全的部署方式。

但是,NFV在应对网络的多层级安全漏洞方面正面临着全新的挑战。诸如硬件、Hypervisor、容器或VNF以分层实体的形式被独立地运行与管理,因而它们的安全参数也应分开考虑。通常,我们需要独立地维护每层实体的用户授权或凭证,因为任何一层的漏洞都可能影响到其他各层的安全性。每层对特定的用户组授予相应权限的可执行命令,而没有任何多余的权限,这样可以确保系统各层的安全性。

为确保NFV网络免受入侵或阻止异常访问流量,需要在网络中部署多层级防火墙。

第一层级用于保护各类VNF,这与传统设备组建的网络需求类似,区别在于安全网元以虚拟防火墙(可能在单独的VNF中运行)的形态存在。第二层级是位于Hypervisor层的防火墙,这类防火墙用于管控虚拟机之间的数据访问,避免外界利用Hypervisor层的开放端口入侵虚拟机。第三层级防火墙是对宿主机自身的安全防护,实现对底层基础架构组件的保护,阻隔未经允许的访问流量。该层级防火墙通常属于NFVI的组成部分,相较于前两个层级的防火墙,第三层级防火墙可能会被独立地配置与维护。

下图展示了NFV网络中有关安全的各方面考虑因素:

需要考虑的安全漏洞有以下几点:

  • 针对各层组件发起独立且直接的安全性攻击。如对身份认证管理、指令授权、日志记录与监控以及对各层威胁的保护都具有挑战性。
  • 各组件间传递的信息/数据流也可能存在安全问题。例如,VNF应用程序是否有权访问客户操作系统,或是Hypervisor对各VNF实例的互访权限设置等安全问题。
  • 根据差异化的VNF隔离等级,基于同一个NFV基础设施层上的多个VNF之间可能存在安全干扰风险。
  • 在使用服务链的过程中也存在一些安全挑战。

NFV安全实施的另一个挑战来自于在NFV网络中使用多供应商软件,尤其是VNF。由于VNF也可以由不同供应商的产品构成,因此可能需要对它们进行独立的评估和验证,以确保其安全与健壮性。

如果将VNF从一个供应商切换至另一个,则可能需要重新评估,从而对VNF的选择过程带来了额外的成本开销。

9. 演进挑战

NFV转型是一种革命性的演进过程。无论从技术角度,还是从业务流程或商业模式角度来看,它们都面临着这种变革带来的迁移挑战。

NFV网络演进是一种渐进式的过程,传统网络技术与NFV网络技术之间存在一段较长的共存期,这种技术重叠期也富有挑战性。除了符合新的设计标准外,还必须兼顾传统设备所提供服务的设计要求,如此才能确保基于NFV的服务实现平滑演进。同时,必须以最大限度发挥NFV优势的方式开展规划、构建、管理与运营等演进工作。

对于NFV化而言,我们不应简单地将其看作是对现有网络设备软件部分的“虚拟化”过程,而应将其视为对传统硬件设备的解耦过程,即在网络中多个位置采用多种供应商的各类VNF模块构建网络能力。

从运营角度来看,对VNF实例进行管理与监控的应用程序也与传统网络的差异较大。这种变化要求我们以新增一组工具或者增强现有工具集的方式才能同时支持NFV与传统网络系统,运营团队也需要兼具解决传统设备与新型设备各类问题的能力,这在技能与专业知识要求方面极具挑战。重要的是,在NFV演进期间,如果网络处于过渡状态,则日常操作中新(虚拟与物理混合)、旧(物理)功能与服务实现的互操作性挑战也不容忽视。

NFV网络的另一种实现方法是全新替换而非对现有网络的平滑演进。这种“激进式”的NFV部署方法适用于新建的网络中,它可以不受现有网络的任何限制。

在这种场景下,业务的发展与规划、服务的设计与研发都必须采用全新的方式开展,从而充分利用NFV网络的设计与部署优势。这种快速演进至NFV网络的过程也要求我们必须以相同的速度掌握新工具操作与故障排查技能。

这些前提条件如果得不到VNF供应商的支持,则上述演进方法难以落地。

10. 管理系统挑战

对于NFV网络的管理与传统网络截然不同,NFV网络管理系统应具备对多层次、多供应商产品或网元(主机、虚拟化引擎、VNF以及硬件)的纳管能力。NFV网络管理系统可能还需要支持对传统设备的纳管能力。

互操作性是管理系统面临的最大挑战,其次是对网络灵活与动态的管理。NFV管理系统不仅需要对网络进行实时监控,也需要具备及时处理网络中突发问题的能力,所以可编程与自动化是管理系统的必要特征。为了有效部署NFV功能,管理工具需要进一步增强,具备弹性伸缩、硬件实时分配/释放、网络连接(VNF实例间)重配置以及按需分发新服务等能力。这些与监控、管理密切相关的编排能力是网络技术中全新的概念。

NFV网络正以前所未有的速度迭代发展,我们应密切关注技术的演进,避免NFV网络出现无序扩展的情形。这就需要我们以比传统网络更为严格的方式做好业务设计与网络规划,因为任何缺乏系统化、规范化设计的NFV网络都不可能具备提升效率的优势。

目前,大部分供应商可提供的管理系统都不足以完全解决上述问题,大多数工具仍然是根据供应商自有的NFV解决方案量身定制的。为进一步提升NFV网络的管理效果,这些工具仍有待完善。对于习惯了使用传统网络专业网管的运营商而言,他们正面临着适应全新管理模式的巨大挑战。当然,这种适应管理变化的需求不仅限于对工具或软件的升级,也需要网络运营团队的同步演进。因此,他们必须接受与NFV网络管理相关的新技术培训。

对NFV系统的运维操作可能涉及多层面的管理与监控。基础架构可能需要不同的工具以及一个具备统一管理Hypervisor、主机操作系统与VNF实例能力的团队。这使得ETSI组织在MANO架构体系中定义了多个子模块,例如虚拟网络功能管理器(VNFM)、NFV编排器(NFVO)以及虚拟化基础设施管理器(VIM)。

如下图所示,这些多层管理器既要相互独立地工作,也必须相互协调与通信,以实现对整个NFV系统的部署管理。

11. 资源隔离

虚拟化技术虽然为共享资源提供了隔离措施,但在某些场景下,隔离性仍然存在问题。例如,一台虚拟机对资源的抢占行为可能影响其所在宿主机上的所有虚拟机。这种现象被称之为“邻居噪声效应”,是虚拟化相较于裸金属架构存在的潜在缺点。

在轻量级虚拟化-容器的场景下,这种现象更加明显。当然,虚拟化层可以通过资源预留、高效共享以及高可用等机制来缓解上述问题。

12. 排障难题

如果早期没有做好规划,则在NFV网络中进行故障检测与排查会非常困难。某个层面的问题可能与其他层面都有关联,这使得排障过程涉及多个层面。例如,主机的CPU出现高负载或者系统遇到“邻居噪声效应”时,都可能影响到VNF的性能。在这种情形下,仅对VNF进行调试是不足以找到问题的根本原因的。

类似地,底层的故障也可能会引发上层多种故障现象。如果 Hypervisor 出现崩溃的情况,则监控系统会显示所有VNF都出现了故障。此时,若仅从VNF局部而非全局视角排查问题,则可能会导致误判的结果出现。而只有在定位到 Hypervisor 崩溃的现象时,才可能找到故障的根本原因。

由于在NFV架构中软、硬件高度解耦,因此对硬件的监控与故障排查主要依赖于主机操作系统层。这与传统网络中的硬件故障排查完全不同,因为传统网络设备是一种操作系统与网络功能软件紧耦合的架构。而在NFV网络中,当原本属于操作系统一部分的网络功能解耦并转移至VNF时,对硬件故障的排查功能仍然在主机操作系统层进行,因为操作系统软件与设备硬件更为接近,使其具有最佳的可见性。当然,诸如对虚拟CPU、内存资源的监控虽然仍属于VNF的一部分,但这些功能对资源容量的管理、硬件故障的排查也是有较大帮助的。

供应商的多样性与VNF的动态特性,使得网络功能的软件故障排查难度增加。业界一直尝试构建一套通用的API与模型来管理VNF,但是想要兼容大多数VNF的难度较大。

从API获得的信息有助于简单故障的排查,但在面对复杂故障时,即便有标准化的通用API接口也无济于事。例如,检查路由学习是否正常或路由协议是否启动就属于简单级别的故障排查功能。但是为了查找路由没有出现的原因,可能需要使用VNF级调试语句,然而这些调试语句通常与供应商的产品强相关。虽然供应商的独立性以及多供应商VNF间快速动态切换的能力是NFV的一大优势所在,但同时它也对运营团队的维护技能提出了更高要求。

当前,大多数监控系统基于设备产生的告警与日志来检测网络问题,而这些日志与告警的格式或内容可能因厂商而异。这再次体现了VNF动态特性与厂商多样性对运维工具复杂度的增加,因为它需要对来自不同类型的设备消息与生命周期状态进行解释。基于标准化的监控技术(如简单网络监控协议,即 SNMP)可以解决部分问题,但其作用范围和效果极其有限。 

猜你喜欢

转载自blog.csdn.net/qq_35029061/article/details/127669591