论文泛读:基于混合deep-Q网络的运输资源不足柔性作业车间实时数据驱动动态调度

1.论文题目:Real-time data-driven dynamic scheduling for flexible job shop with 
insufficient transportation resources using hybrid deep Q network

2.作者:Yuxin Li, Wenbin Gu*, Minghai Yuan, Yaming Tang

3.文献来源:Robotics and Computer-Integrated Manufacturing

4.名词介绍:自动导引车(AGV) 柔性制造系统(FMS)物联网(IoT)

深度强化学习(DRL)神经网络(NN)混合深度Q网络(HDQN)动态柔性作业车间调度问题(DFJSP-ITR)

5.创新点:开发了一种混合深度Q网络(HDQN)来解决运输资源不足的动态柔性作业车间调度问题

6.论文贡献::(1)建立了DFJSP-ITR的多目标优化模型,以最大完工时间和总能耗为目标。(2) 为了实现基于DRL的调度,建立了车间状态模型,提出了决策点、26个一般状态特征、基于遗传规划的动作空间和奖励函数。(3) 提出了一种训练方法,使agent学会在每个决策点选择合适的动作,该方法对deepq网络(DQN)进行了三次扩展。同时,给出了一种面向机器故障和新任务插入的策略。(4) 实验结果表明,该方法能够通过学习有效地处理干扰事件和不可见情况,与其他方法相比具有通用性和优越性。

7.动态调度以及RL和DRL在生产调度中的应用

生产调度是作为一个组合优化问题来解决的,而RL是从一个顺序决策问题的角度来优化生产调度的。基于RL的代理执行广泛的探索和学习,并最终学习根据每个决策点的车间状态选择适当的调度规则。

DRL是一种特殊类型的RL,具有用于状态表示的深度神经网络(DNN)和/或用于值函数、策略、过渡模型或奖励函数的函数近似。

8.知识背景

强化学习解决RL问题的一般框架是MDP,它是顺序决策的经典形式化表达。在MDP中,学习和实现决策的机器称为agent,与agent交互的所有外部事物称为环境。

深度Q网络为了解决传统Q-学习算法的维数问题。

DQN是一种用于近似值函数的DNN。它将观察到的环境状态作为输入,并输出所有动作的Q值,这是选择的基础。

传统的DQN受到高估偏差的影响,学习质量受到损害双Q-学习通过在引导目标的最大化过程中,从其评估中选择行动来解决这种高估问题。

软目标网络更新策略,每C步从行动值网络中复制目标行动值网络的权值,以保证DQN收敛的稳定性。出于同样的目的,本文采用了软目标网络更新策略[44]。在学习过程的每个步骤中,通过让目标行动价值网络缓慢跟踪行动价值网络来更新其权重:̂Q=λ⋅Q+(1)−λ)⋅λ<<1的Q。这一政策限制了目标值的缓慢变化,极大地提高了学习的稳定性。

9.基于HDQN的动态调度方法

基于DRL的调度框架该方法的总体框架主要分为两个阶段:离线学习和在线应用。在离线学习阶段,当订单发布到车间时,代理(即NN)不断与车间环境交互以收集历史经验。然后,agent使用DRL方法和以往的决策经验来优化自己的参数。最后,agent学习根据车间的实时状态选择合适的调度规则,从而优化目标。在在线应用阶段,利用训练好的神经网络模型实现实时调度。离线培训不能考虑现实世界中的所有情况。因此,我们将定期收集真实世界的实例和高质量的调度方案,并对经过训练的神经网络模型进行重新训练和微调,这称为自学习。自我学习有两种方式。(1) 采用带标签的高质量调度方案对训练神经网络的参数进行微调,这是一个有监督的学习过程。(2) 使用真实单词实例,使用DRL方法继续训练训练训练后的神经网络。在离线学习或在线应用阶段,调度代理与车间环境之间的交互,即基于DRL的调度器的工作模式。智能车间中有大量的制造资源,包括机器、AGV、仓库和云。这些制造资源通过局域网(LAN)互连,实现数据交换和信息共享。

订单发布后,智能车间开始运行。在这个操作过程中,每个制造资源通过传感器、RFID和其他技术获得自己的实时数据。基于DRL的调度框架,调度代理和车间环境之间的交互。传感器,内部IPC将开始计时,以计算相应的机器加载速率。通过这种方式,制造资源可以通过处理一系列原始制造数据获得调度所需的高级信息。云不断读取生产过程中各种制造资源的数据,以更新和同步数字孪生模型。当云判断车间当前状况满足决策点条件时,调度代理根据共享的制造信息计算出预设的状态特征,然后基于内部神经网络模型得到相应的调度规则。云使用已知的作业池(包括待处理工件的信息),将调度规则转化为具体指令,并通过局域网命令相应的AGV和机器进行运输和处理。在整个制造过程中,机器作业的原则是“先分配先加工”,AGV作业的原则是“先分配先运输”。车间以这种方式运行,直到整个任务完成。订单完成后,云计算将使用数字孪生模型评估制造性能,并将其显示在可视化界面上。同时,云将优秀的、看不见的调度案例存储在数据库中,方便调度代理的自学习。此外,专家将收集有效的调度方案,更新云的NN模型。

10.为了设计基于HDQN的动态调度方法的关键要素,首先建立了各时间点的车间状态模型。它由生产资源部分和运输任务池部分组成

11.算法的优越性

为了证明HDQN的优越性,将HDQN与两种调度规则进行了比较。

12.结论

采用DRL解决DFJSP-ITR问题。首先,建立了DFJSP-ITR的多目标优化模型,以最大完工时间和总能耗为目标。然后,提出了HDQN,使agent学习根据每个决策点的车间状态选择合适的动作(即GP规则)。它对DQN有三个扩展,即双Q学习、优先级重放和软目标网络更新策略。首先建立了车间状态模型,然后设计了决策点、26个一般状态特征、基于GP的行为空间和奖励函数。在此基础上,提出了基于HDQN的培训方法和面对新工作插入和机器故障的策略。在不同生产配置下的综合实验证明,HDQN在解决DFJSP-ITR问题上具有通用性和优越性,能够有效地处理干扰事件,并通过学习弥合Sim2Real差距。结果表明,在大多数情况下,HDQN方法优于其他方法。即使HDQN实现了更高的目标,其劣于其他方法的程度仍然很小。未来的研究将主要集中在以下几个方面。首先,值得探讨的是如何为基于DRL的调度设计更好的状态特征、动作和奖励功能。第二,更多的不确定性值得考虑,更多的优化目标,如总延误将被研究。第三,生产场景的一个变化导致本文提出的方法的一个新的训练。因此,提高基于DRL的调度方法的通用性是一个挑战。最后,将研究其他先进的DRL方法,包括DDPG、A3C、PPO等。同时,将新的深度学习模型、元启发式、超启发式、代理间的协作优化机制(如博弈论)与DRL方法有效地结合起来也是一个可以深入探索的研究方向。

Guess you like

Origin blog.csdn.net/m0_66111915/article/details/122502254