Task Scheduling：Cloud-Edge 协作学习中的传输时间优化任务调度

本文出自论文 Task Scheduling with Optimized Transmission Time in Collaborative Cloud-Edge Learning，主要研究了一个任务调度问题来减少加权传输时间，同时把学习精度考虑在内。

深度渗透学习技术在任务关键性应用（如无人驾驶车）需要严格时间的要求来保证它的交互性和大型训练数据来保证它的准确性，这个不可能被云很容易地满足，使网络传输成为了技术瓶颈。边缘学习的出现成为了一个关键点，它通过在网络边缘处理和压缩原始数据来减少数据传输时间，同时会带来精度减少的问题。为了平衡边云架构之间的权衡，我们研究了一个任务调度问题来减少加权传输时间，同时把学习精度考虑在内。我们也通过广泛的轨迹驱动模拟实现最大完成时间减少到50%，证实了调度算法的有效性。

一、简介

边缘学习概念的出现为延迟敏感性和成本有效性的学习打开了一扇机遇之门，它可以作为云学习的补充。其核心思想是推动应用程序、数据和计算任务从集中式群到网络边缘。通过卸载一个大量存储和计算到靠近用户的边缘服务器上，传统的云计算方法将被延伸到网络边缘。它在减少通信延迟和传输到云的流量中，与传统云计算方式相比具有一定的优势。
在边缘学习结构下，边缘服务器将分割数据或执行数据维度减少的算法，这种方法可以减少网络传输流量和通信时间，同时牺牲学习精度是难以避免的。
在本文中，我们研究了一个任务调度问题来优化加权数据传输时间，同时将精度考虑在内。我们首先定义我们的调度问题作为一个混合整数问题，其转换成一个基于学习精度和流量减少权衡的整数线性规划问题。我们提出来两种算法来解决我们对应的问题，使用轨迹驱动模拟，我们算法可以展示出其减少数据传输时间的良好性能。

二、背景和边缘学习框架

由于数据量大以及隐私性，边缘成为了一个中间结构，用来卸载部分训练任务，并使在边缘的模型训练成为一个优化选择。由于边缘服务器上的计算资源受限，云仍然在边缘学习应用中扮演着一个重要的角色，因为只有部分计算可以被卸载到边缘，另外一部分仍然需要在云数据中心被处理执行。另外，最先进的深度学习应用被设计为云集中模式，并不适用于端边云架构。一个终端用户可以通过改变任何终端用户可用接入网络的网络连接，来切换不同的边缘网络。因此，为每个终端用户安排连接来获取最好的服务质量（QoS）具有一定的挑战性。
我们基于端边云架构来描述一个边缘学习框架。对于每个终端设备，这里有一个或几个边缘服务器可以被访问。在被上传到云端用来主神经网络训练前，数据需要被卸载到其中一个可访问边缘服务器来做预学习或预处理。除了边缘学习处理，我们的云边学习系统将提供一个合适的调度方案来安排终端设备到一个边缘服务器，这样在边缘服务器的资源将可以被有效地利用起来。
我们的workflow由两个阶段组成。第一个阶段是调度处理，终端设备发送它们的训练数据大小信息，并选择深度学习模型到云。然后云收集到所有的信息，运行此调度方案去生成一个连接计划，最终将边缘服务器连接信息反馈到每个终端设备。第二个阶段是云边系统的深度学习处理，训练数据被终端设备所产生，这些数据被发送到已经安排好的边缘服务器，来进行边缘预学习或预处理。边缘服务器的主要工作是提取特征，执行维度减少算法，或者分离整个深度神经网络和将部分工作负载从云移动到附近的边缘服务器上。为云深度学习应用引入边缘可以显著减少数据流量和云工作负载，但同时由于数据压缩会减少学习精度。

三、边缘学习调度

我们将集中于线下深度学习任务调度问题，并将它用数学公式进行定义。通过分析学习精度和流量减少的关系，我们证实到在我们定义好的问题中，对每个工作这里存在着一个最好的空间剩余比。于是，我们进一步将我们的问题公式转化为整数线性规划问题（ILP）。
系统模型：我们将J定义为学习任务，M定义为边缘服务器，D定义为原始数据大小，R定义为空间剩余比，等同于压缩数据集大小与原始数据集大小的比值，我们将每个边缘的带宽约束定义为B。因此我们可以计算数据传输时间 $P_{i,j}$ 定义为： $P_{i,j}=\frac{D_i * R_i}{B_j}$ ，其中i表示任务下标，j表示边缘服务器的下标。同样地，我们定义每个学习任务的相应学习精度为A。
问题公式化：如果我们指派任务 $J_i$ 到边缘服务器 $M_j$ ，则定义 $x_{I,j}=1$ ，否则置为0。我们定义加权数据传输时间为W来替代真实上传时间P。加权数据传输时间等同于上传时间与对应准确率之比，可表示为： $W_i=\frac{\sum_{j=0}^{m}x_{i,j}*P_{i,j}}{A_i}$ 。我们的目标是最小化每个边缘服务器上的最大数据传输时间，可定义为： $\min \limits_{1\leq j\leq m} \max\sum_{x_{i,j}=1}W_i$ 。
模型权衡（精度vs流量减少）：我们选择在边缘服务器上执行自编码压缩算法来处理从终端设备上获取到的学习数据，然后发送处理过的数据到更强的云中来做下一步训练。自编码器的学习过程可以被解释成学习一个恒等函数的近似值，输入和输出都是原始数据本身。从输入层到隐藏层的神经网络结构被称为编码器，从隐藏层到输出层的结构被称为解码器。通过从隐藏层中提取信息，原始数据中最有代表性的特征可以被获取到，于是压缩可以通过编码器来实现。
自编码器允许用户来设置中间隐藏层中提取特征的维度。通过设置合适的维度和稀疏约束，自编码器可以产生更具代表性的数据预测。为了完全理解学习精度如何被流量减少所影响，我们建立了一个实际的试验，我们实现了具有3个完全连接的隐藏层的自编码器，并选择MS-Celeb-1M数据集作为数据源。实验结果展示了当有一定的原始数据大小时，学习精度将会增加，但是随着空间剩余比的增加其增长速度呈下降趋势。
为了精确地描述学习精度和空间剩余比之间的关系，我们尝试用一个逻辑函数来对其建模： $A=a*ln(R+b)+c$ 。当数据记录数量增加时，不同函数曲线之间的差别也会变小。因此我们假定如果训练数据记录足够大时，精度曲线可以被认为相同。
公式转换：通过以上公式，我们将 $W_i$ 定义为： $W_i(R_i,x_i)=\frac{R_i}{a*ln(R_i+b)+c}*\sum_{j=0}^{m}\frac{x_{i,j}}{B_j}*D_i$ 。我们可以发现 $R_i$ 和 $x_{i,j}$ 是唯一的变量并且不相关。因此，不管生成的任务安排调度如何，获得最好的空间剩余比都具有可行性。

四、加权数据传输时间优化的任务调度

基于极值点线性规划解决方案的舍入算法：我们的算法给出了一个2-近似调度。我们首先声明了LP问题极值点求解的两个性质：（1）任何极值点求解最多有n+m个非零变量；（2）任何极值点求解有一个m任务的上界。其算法主要步骤为：使用LP求解器获取最小完成时间 $W^{*}$ 的可行方案；LP问题的极值点求解x；遍历求解x的合适值完成任务调度。
模拟退火重排算法：这个算法有两个步骤，第一个步骤是使用贪心搜索寻找一个调度方案，我们首先根据在最好的空间剩余比下压缩数据大小来对任务进行排序，然后以贪心策略安排每个任务到一个特定的边缘服务器，来使当前的完成时间最小。第二步是重新安排任务，我们使用模拟退火算法作为重排策略。每个任务都有一次机会被重新分配到边缘服务器中一个，如果这个任务被重安排到另一个获得较小全局时间的边缘服务器，我们则把它描述为一个更好的状态移动并接受。否则，我们将它表述为一个更坏的状态移动，然后在动态概率下接受这个移动。

五、性能评估

从一对一连接、一对多连接到全连接的实验结果中，我们可以推断出当网络拓扑结构变得越复杂，我们的算法能够生成更有效的调度方案。另外，我们的算法可以减少最多基线算法标准误差时间的2/3。
我们也计算了加载最多的边缘服务器上的工作数量，处理网络带宽瓶颈，每个边缘服务器在计算资源上也有限制。太多被指派到一个边缘服务器上的任务可能会过载，所以我们的算法应当避免这种情况。通过实验结果可以看出，我们的算法在最多负载的边缘服务器上有着最少数量的工作。因此我们的算法将尽少可能地使边缘服务器负载。

六、总结

在本文中，我们关注于在cloud-edge学习系统的深度学习应用程序。在云中的深度学习要求大量训练数据来支持，同时它带来了较大的网络流量和较长的传输时间。边缘学习可以解决传输问题，同时也带来了精度的降低。
我们研究了一个任务调度问题来减少在边缘服务器上的最大加权上传时间，同时将学习精度考虑在内。因为这是一个在学习精度和流量减少之间的权衡，我们能使用边缘学习任务的最好空间剩余比，并减少此问题到一个ILP问题。然后我们提出了两种算法并通过模拟展示了其效率。我们的模拟结果展示了我们的算法能够优于基础算法。

librahfacebook

发布了31 篇原创文章 · 获赞 40 · 访问量 2万+

私信关注