5 Traffic routing

网络流量路由是网络中的基础，并且需要选择用于分组传输的路径。选择标准是多种多样的，主要取决于操作策略和目标，例如成本最小化，链路利用率最大化和QoS配置。流量路由需要具有强能力的ML模型能力，例如能够应对和扩展复杂和动态网络拓扑，学习所选路径与所接受的QoS之间的相关性的能力，以及预测路由决策后果的能力。
　　在现有文献中，一系列ML技术主导了交通路由，强化学习的研究。

关于RL的review

RL雇用学习代理人在没有监督的情况下探索周围环境，通常表示为具有有限状态的 MDP ，并从试错中学习最大化累积奖励的最优行动政策。RL模型是基于一组状态S，每个状态A（ $s_t$ ）的一组动作以及相应的奖励（或成本） $r_t$ 定义的。
　　当S与网络相关联时，状态 $s_t$ 表示状态在网络中所有节点和链路的状态。然而，当它与被路由的分组相关联时， $s_t$ 表示在时间t拥有分组的节点的状态。<在这种情况下，A（ $s_t$ ）表示所有可能的下一跳邻居节点。.对于每个链路或转发，路由内的动作may be根据单个或多个奖励（成本另外考虑）的度量指标(例如排队延迟，可用带宽，拥塞级别，分组丢失。速率，能耗水平，链路可靠性，重传次数等)，与一个immediate static or fynamic reward（分别为成本） $r_t$ 相关联。
　　在路由时，累积奖励，即在分组到达其目的地时累积的总奖励，通常是未知的。

Q-learning在network的发展历史

虽然RL现在受到了很多关注，但它在网络流量路由中的应用可以追溯到

20世纪90年代初：
Boyan和Littman的[71,280]开创性工作介绍了Q-routing，这是Q-learning算法在数据包路由中的直接应用。
- 20世纪90年代末和21世纪初
  一些研究工作建立在Q学习的基础上并提出了改进，从而产生了三个主要的研究方向：
  - 提高Q路由的性能，以提高学习和收敛速度[ 96,254]，
  - 利用Q学习的低复杂性和设计适应网络特性的Q学习启发算法（例如能量约束网络）和/或路由范例（例如组播路由[ 430]
  - 在路由学习代理之间进行进一步的协作以实现复杂的全局性能要求[424,479]
1996年
提出了一种基于记忆的Q学习算法，称为预测Q路由（PQ-routing），保持过去的经验以提高学习速度。
1997年
Kumar等人，应用双重加强Q路由（DRQ路由）以最小化分组传送时间[254]。
1998年
Stone和Veloso为RoboCup-1998（机器人足球世界杯II）[425]提出的团队划分的不透明过渡强化学习（TPOT-RL）是第一个应用于分组路由的全协同MARL技术[424] ]。

5.1 Routing as a decentralized operation function

当以完全分布的方式应用时，RL将每个路由节点转变为学习代理，该学习代理根据从环境中学习的信息做出本地路由决策。路由节点可以独立地或通过多代理系统方式的协作来做出决策。

5.2 Routing as a partially decentralized operation function

在[461] Wang等人。提出了AdaR，一种基于无模型最小二乘策略迭代（LSPI）RL技术[258]的集中实现的无线传感器网络路由机制。

5.3 Routing as a centralized control function

最近，Lin等人已经应用了具有softmax策略选择算法的集中式SARSA。 [276]在SDN中实现QoS感知自适应路由（QAR）

5.4 Summary

传统RL算法的低计算和通信要求，特别是Q学习，以及它们在寻找最佳解决方案和适应环境变化方面表现良好的能力，已经促使他们报告成功应用于流量路由。各种网络设置
在将RL应用于流量路由问题时考虑了不同的方法。这些方法在以下方面有所不同:
- 学习能力的分布水平
- 多学习者之间的合作水平
  　　显然，不同的方法更适合不同的网络拓扑和实用功能。
同样重要的是要注意到学习者在最近采用的分散式RL方法中非常松散地耦合，其中路由器倾向于以异步，独立，非常软的MARL(multi-agent reinforcement learning)方式(fashion译为方法，方式)选择路由策略。
- 显然，MARL旨在协调学习代理，以实现最佳的网络性能。这应该进一步增强路由性能。
- 然而，MARL出现了一些挑战。实际上，在将MARL应用于实际问题大小时：
  - 定义良好的全局学习目标的难度，代理与其他学习代理一致地协调的开销以及较长的收敛时间可能是令人望而却步的
- 应用MARL时需要理解利益和开销之间的权衡，特别是在资源受限和动态无线网络中，协调这方面还可以改进很多(have a lot to offer)。

Background Information

MDP( Markov Decision Process )马尔可夫决策过程

深度学习如图像识别和语音识别解决的是感知的问题，强化学习解决的是决策的问题。无数学者们通过几十年不断地努力和探索，提出了一套可以解决大部分强化学习问题的框架，这个框架就是马尔科夫决策过程，简称MDP。

马尔可夫性
*　所谓马尔科夫性是指系统的下一个状态仅与当前状态有关，而与以前的状态无关
*　定义
*　状态 $s_t$ 时马尔可夫的，当且仅当 $P[s_(t+1)|s_t]= P[s_(t+1)|s_1,...,s_t]$
*　定义中可以看到，当前状态 $s_t$ 其实是蕴含了所有相关的历史信息，一旦当前状态已知，历史信息将会被抛弃
　马尔科夫性描述的是每个状态的性质，但真正有用的是如何描述一个状态序列。
马尔科夫过程
- 数学中用来描述随机变量序列的学科叫随机过程所谓随机过程就是指随机变量序列若随机变量序列中的每个状态都是马尔科夫的则称此随机过程为马尔科夫随机过程。
- 定义：
  　　马尔科夫过程是一个二元组（S,P），且满足：S是有限状态集合， P是状态转移概率。状态转移概率矩阵为：
  $P=　 \left[ \begin{matrix} P11 && ... && P1n\\ ... && ... && ...\\ Pn1 && ... && Pnn \end{matrix} \right]$
马尔科夫决策过程
- 马尔科夫决策过程由元组描述(S,A,P,R, $\gamma$ )，其中：S为有限的状态集, A为有限的动作集, P为状态转移概率,R为回报函数, $\gamma$ ∈ [0, 1]为折扣因子(衰减系数 Discount Factor)【衰减系数的含义：体现了未来的奖励在当前时刻的价值比例。在t+k+1时刻获得的奖励R在t时刻的体现出的价值是 $\gamma^kR$ ,γ接近0，则表明趋向于“近视”性评估；γ接近1则表明偏重考虑远期的利益。】，用来计算累积回报。注意，跟马尔科夫过程不同的是，马尔科夫决策过程的状态转移概率是包含动作的，即：
  　 $P_{ss'}^a=P[S_(T+1)=s'|S_t=s,A_t=a]$
强化学习的目标是给定一个马尔科夫决策过程，寻找最优策略。
连接内容实在太长，重新打一遍有点费时间，在这里就写写一些note好了：
- 收获(也有翻译成“收益”或"回报"，累积回报)：
  $G_t=R_(t+1)+\gamma R_(t+2)+...=\sum_{k=0}^{\infty}\gamma ^kR_{t+k+1}$
  - 收获时震度i马尔可夫链种的某一个状态来说的
- 价值函数Value FUnction(状态-值函数V)，定义为从该状态s开始的累计回报的期望值 (公式的注意点：
  - 每一步都要在上一步的回报的折扣因子上再乘上一个 $\gamma$
  - 状态值函数是与策略 $\pi$ 相对应的，这是因为策略 $\pi$ 决定了累积回报G的状态分布。
  - 这里的策略指的是在每个状态下，下一步的行动概率转换矩阵P
    )

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【sec 5】