论文阅读:Reinforcement Learning Based Dynamic Resource Migration for Virtual Networks

Takaya Miyazawa, Ved P. Kafle, and Hiroaki Harai
National Institute of Information and Communications Technology (NICT)

摘要

网络虚拟化技术使得网络操作员可以在一个基础设施上部署许多个虚拟网络。这些网络资源应该能在不同的VN(虚拟机网络)之间动态调节，比如从一个地方转移至另一个地方，比如我们建立一个新的紧急VN以应对突发情况或者对非紧急VN尽量提高其服务质量(QoS)。在本文中，我们提出一个方法来自动的选择和调节我们的资源。特殊的是，我们的方法使用在为虚拟机选择位置时使用强化学习的方法来满足QoS的要求。我们在一定时期的和固定参数下评估其QoS的满足程度，仿真结果显示我们的动态资源管理方法相对于静态资源分配方法可以提高非紧急VN满足QoS的次数。而且结果显示使用强化学习在不同的网络环境和参数配置条件下都能比原来的随机资源选择方法的QoS的满足次数更多。

介绍

最近有许多人在研究网络的虚拟化技术，这种虚拟化的一个优点就是可以实现资源的隔绝。在一个设备上放置许多的虚拟机的问题是如何对这些虚拟机分配。当前的网络主要靠手工分配的方法，自动化方法可以降低配置时间，避免人为失误等问题，还可以处理一些紧急问题。

【2】中的作者提出通过软件事先定义的方法来移动虚拟机，【3】提出了使用Hypervisors创建调度环境。【4】的作者提出了一个架构SFC来调度，【5】的作者提出网络管理员在云OS提出调度请求时通过OpenFlow选择和调度。但是这些方法缺乏的一个问题是我们要调度的虚拟机应该迁移到哪里，没有人在之前使用机器学习来满足节点的QoS要求。【6】的作者提出了机器学习的方法进行虚拟机的调度，但是仅仅是在云端虚拟环境，没有涉及大型网络设备和数据中心的资源迁移问题。

本文中，我们提出了一个在非仅仅VN中的动态选择和迁移方法，最直接的资源迁移方法是直接把VN的资源从一个地方随机的转移到另一个地方。但是这不是最优解，本文使用强化学习的方法来选择不同的资源来满足QoS的要求。强化学习是机器学习的一种，而且已经大量运用在不同的网络控制中。实验模拟显示，我们的方法在非紧急VN上可以增加满足QoS的时间和静态资源利用率相比，同样的相比于动态调节的随机选择策略我们的方法能大幅提升QoS的时间。

虚拟网络构建

上图的a是虚拟层和物理机组成的网络，b是虚拟资源和物理资源的对应关系。在物理层，边缘网络和数据中心组成大规模的核心网络，边缘层是由一些数据收集设备如PC，手机等等。我们假设所有的这些物理设备都是由一个单一的InP组成，VNs由所有的物理设备组成，资源包括CPU，内存和存储和网络资源。每个VNO通过InP请求物理资源，InP通过图b的映射关系调度资源来满足VNO的要求，VNO得到相应的资源后就开始构建其所需的网络VN。一个VNs的虚拟资源可能会为了保证其QoS而被转移到别的VN上。

上图展示了在非仅仅VN上发生了一个紧急事件的情况下VNO组织步骤，VNO首先扫所有的物理设备然后给InP发请求，QoS更高的请求可以更好的分配资源。

基于机器学习的自动资源控制

为了达到不同操作和不同物联网设备的不同QoS请求，我们在虚拟网络构建中使用机器学习技术。尤其对资源控制，我们在自动资源管理方面使用的Ml技术在两方面，一是在初始化VN构建阶段根据不同的VN请求选择虚拟机资源，二是根据网络状况和QoS要求决定把虚拟机迁移到哪。

上图展示了本文的资源管理的控制流程，“output”是使用虚拟机资源选择程序从VN构建的输入要求“Input”学习所得到的，我们的这个程序使用了ML的方法（如支持向量机）。在此，输入信息包括QoS的要求和网络参数（如带宽，丢包率，延迟等），输出信息就包括了拓扑网络，网络带宽和计算资源等信息。VNO把这些output的信息发送给InP来获取需要的物理资源。一个紧急情况下的VN有更高的优先级获取最佳的资源，所以如果资源不足时，非紧急VNs的资源就应该被迁移给别的物理设备上。在本文中，我们主要考察的就是这种资源迁移过程，我们使用强化学习的方法来决定这一过程，当资源迁移的决定下达后，InP会对这些相关的VN进行重新分配，分配完之后VNO又会继续监控VN的QoS水平。

资源迁移计划

在上一节提到的随机分配资源的方法有一个明显的缺点是这样迁移到别的别的资源不满足QoS的要求，所以我们使用强化学习的方法来寻找最优解，强化学习是机器学习的一种，强化学习的关键问题是状态，行为和反馈，通过对不同状态下选择不同的行为，评估其带来的不同的反馈值，在不断的是错中来找到最大的反馈值，我们的反馈目标被定义为QoS的值，本文中使用Q-learning的方法。

我们把状态定义为\(S={SRC,E_1,E_2,...,E_J,C_1,C_2,...,C_K,D_1,D_2,...D_L,DST}\)，在不同的学习过程中S的值是不同的，在此SRC代表开始节点，\(E_x\)是边缘节点，\(C_x\)是核心节点，\(D_x\)数据中心节点，DST是目标节点。J,K,L分别代表边缘节点，核心节点以及数据中心节点的个数。i代表SRC的开始数字，A代表我们选择当前节点与哪个节点进行连接，通过执行\(a_i\)，系统的状态由\(s_{i+1}\)转移到\(s_{i+2}\)，同时把反馈看做是每个VN的QoS满足程度，返回值的大小与QoS的满足程度是正比的关系，在本文中，为了简化我们仅仅关注QoS的PLR特性，公式如下：\[r_i={1-p_M/P_R}*\beta if p_M<P_R otherwise 0\].
\(P_M\)是我们观测到的PLR值，\(P_R\)是VN所需要的PLR值，\(\beta\)是调整反馈大小的系数。

当一个行为被选择后我们要评估这个行为对应的值，所以的开始值被设为0.在每个学习过程中，因为行为a使得系统转换到下一状态时就要更新Q的值，其公式如下。

对于行为选择方法，我们使用贪心原则来简化问题的复杂性。行为选择仅仅在QoS不被满足的情况下才可能出现，我们的方法根据贪心原则有一定概率选择Q值最大的行为，另外一部分概率随机选择一个行为。从SRC到DST的一个过程代表一个学习过程，代理循序指定的次数然后选择一个资源分配方案。Q值一次只有一个值而且不断的进行迭代，这种方法的好处是QoS的值会不断的提高，本文中的每个VNO都有一套自己的强化学习模型来独立的进行决策。

评估

我们准备在一个简单的网络上实现我们的实验，图5包括一个源节点，两个边缘节点，五个核心节点和一个目标节点。假设我们的一条紧急路线是SRC-E1-C2-C4-D2-DST，我们从非紧急VN上找那些PLR较小的转移到紧急路线上。我们假设非紧急VN由许多网络组成，由于我们的紧急路线上的资源被占用完，所以不能从紧急路线上的节点迁移资源，此时我们可选的路线只有四条，如下所示：1.SRC-E2-C1-C5-D1-DST 2.SRC-E2-C1-C5-D3-DST 3.SRC-E2-C3-C5-D1-DST 4.SRC-E2-C3-C5-D3-DST 。我们对比下下面三种资源迁移方法的效果（A）静态资源迁移方法（B）动态资源迁移和完全随机选择方法（C）动态资源迁移和强化学习方法。当发生紧急事件时，学习代理选择上述四条路线中的一条来执行，用A的方法这条路线在整个时期都不会发生改变，B的方法是当QoS不满足的时候随机切换选择一条路线，方法C是根据公式中Q-learning学习到的值来决定是哪条路线，当QoS被满足的时候资源迁移就不会发生（在B方法中），我们把三个系数β, α, 和γ设为10,0.1,0.95。

在本文中，把时间间隔的值设为300，对应模拟的执行时间，换句话说，我们实验的资源迁移点是300，所以最高的满足QoS的值也是300.图6展示了在不同网络情况下的QoS满足情况，我们可以看出的是动态方法B和C相比于A可以大幅增加其满足的节点数量，这是因为动态调整方法在PLR超过0.001时就会调整其方法。值得注意的是在拥堵系数为1 的时候ABC三种方法的值差不多，可能的原因是由于网络状况较好没有触发PLR超过0.001的情况。图7展示了再不同学习率情况下的C方法的QoS满足值，点代表的是C的性能，横线代表的是方法B的QoS满足值，从图中可以看出C在大部分参数比B的效果好。图8显示了满足情况的QoS数量与在一个路线过程中学习的迭代次数的关系。我们将cf的值设为5.如图6所示，当cf = 5时，方法（B）中满足的时隙数为126.与方法（B）相比，方法（C）完全可以获得更好的性能在系数等于或大于2的时候。此外，方法（C）中的满足时隙数随着ni的值增加而变大，并且当ni的值超过9时会收敛或多或少。作为ni的值较小（例如1或2），即更新Q值的迭代次数减少，因此，奖励不能反映在
与满足QoS要求的路由相关的Q值。如果执行的迭代次数足够多，则可以将所有的Q值反映到与路线相关的所有Q值中，从而导致演出收敛。同时，由于方法（C）采用ε-贪婪方法进行动作选择，随机选择一个动作，其概率为ε，随着ni的变化会导致性能的变化。

结论

我们提出了一个在一些紧急事件发生时需要重新组建一个虚拟网络时动态选择/迁移虚拟网络的方法。我们把强化学习使用到我们的方法中以满足非紧急虚拟网络的QoS值。我们的实验显示使用我们的方法可以使得非紧急虚拟网络的QoS值相比于静态方法和随机选择方法提高其QoS满足的次数。