进化学习框架:改进自动群机器人设计

进化学习框架:改进自动群机器人设计

今天阅读了《Evolutionary-learning framework: improving automatic swarm robotics design》,有些许启发,将主要内容整理如下,供大家交流,文章的DOI号为https://doi.org/10.1108/IJIUS-06-2018-0016,可将DOI号输入到文章下载器进行文章下载。

摘要

目的:本文的目的是回顾自动群体设计研究领域的进展现状,并讨论推进群体机器人研究的可能解决方案。提出了一种基于表观遗传函数的群体进化学习框架,并讨论了该框架的优点和对未来研究方向的建议。讨论表明,需要解决的主要挑战是动态环境的存在,而动态环境的存在主要是由agent对agent和agent对环境交互引起的。解决这一问题的一个可能办法是将学习能力融入到群体中,以应对动态环境。

进化型群机器人现状

基于行为的模型可能只解决特定的问题。随着问题复杂性的增加,基于行为的设计需要更多的努力来定义一个适应不可预测环境的数学模型。因此,需要一种更有效的方法来实现群体的集体行为。使用自动设计方法可以很容易地解决这个问题,从而实现集体行为,而无需显式地定义问题的模型
EAswarm机器人技术相结合产生的解决方案称为进化群,由于随机变异和环境变化,往往会产生不可预测的结果。因此,为了使进化群体在动态环境中运行,必须收集来自环境的刺激信息,并在以后作为知识使用,以便下一代EA制定更好的行动或行为:基于外部刺激改进行动通常被定义为一种学习机制(Mitchell,1997年)。然而,由于EAs主要受到达尔文进化论的启发(达尔文,1872年),没有直接的机制让一代个体感知到外部知识被下一代个体(有时被称为Lamarckian paradigm)所继承。换言之,遗传性学习在EA中不起任何重要作用。因此,需要一种将学习框架融入进化群的方法,以拓宽如何在动态环境中提高群能力的视角。
图1 进化群机器人系统
在机器人学中,进化计算(Goldberg,1989)可用于将控制策略的特征编码为人工染色体(Holland,1992)。每个染色体代表每个策略的特定特征,并使用适应度函数评估其适应度值(性能)。高适应值染色体(一组策略)可以通过重组、随机突变和选择等遗传算子进行繁殖。具有较高适应度等级(新策略)的后代将取代上一代中具有最低适应度等级策略的后代。这种发展是重复的,直到新一代的适应值达到指定的标准。这种在机器人学中生成控制策略的方法被定义为进化机器人学(ER),如图1所示(Nolfi等人,2016年)。

学习型群机器人现状

基于MAS的RL允许个体通过与环境和其他因素反复试验来学习行为(Kaelbling等人,1996;Sen和Weiss,1999;Sutton和Barto,1998),见图2。在每次交互中,在环境的相应状态下的每个智能体的行为都会根据其性能得到奖励。利用奖励之和,将行为和状态配对成一组行为状态,作为群体在某一环境状态下的行为准则。
图2 多智能体强化学习
群机器人中的RL利用了多智能体设置的优点。首先,多智能体设置允许以并行方式计算学习过程。第二,一个智能体从与环境的反复交互中感知到的知识可以与其他具有相似任务的智能体共享教学和模仿是小组内共享媒介的例子。最后,当一个或多个智能体无法完成任务时,也可以应用冗余当失败发生时,剩余的代理可以接管并完成任务

进化学习框架

当前的群体机器人设计方法分类如下图3.
图3 群体机器人设计方法分类
尽管进化计算和RL在群体自动设计中具有许多优点,但是利用自动设计来实现群体的集体行为仍然存在一些挑战。包括欺骗性(陷入局部最优)探索与利用困境非平稳行为维度灾难等。因此很多工作关注于如何改善这些问题。主要从保持多样性平衡探索利用实现纳什均衡提升适应性。(具体就不展开了,有兴趣的可以去原文看)。基于以上考量,作者提出了进化学习框架,具体如图4.
图4 表观遗传层的多级学习
进化计算通过选择、重组、变异和再生等途径为主体间的信息共享提供了媒介。表观遗传学除了具有相应的遗传学价值外,还通过进化过程遗传给下一代。集体学习就是在这个过程中通过重组而产生的。基于上述新颖性度量,所有具有相似值的行为都被分组。然后,同一群体中的行为将一起进化,然后将构建显著不同价值(新颖)的新行为插入到待探索的行为中。该方法作为行为空间中行为集合的选择压力以克服欺骗性问题。另一个需要解决的挑战是探索利用困境。为了平衡探索和利用, ε g r e e d y \varepsilon -greedy 可以作为一种选择。通过将探索-利用平衡与新颖性度量相结合,探索有望走向新的行为。
这里只是对文章的思想进行剖析,对细节没有重点介绍,有兴趣的同学可以移步原文详细分析。

未来工作

简单来说未来工作是在该论文框架基础上,做更多的仿真和实机实验验证,同时数理层面对整个框架模型的推理论证也将是重要工作。

希望该文档能对大家有用,欢迎和大家交流,后续会在空间中更新个人学习经验分享,涉及一些小技巧、matlab使用、群体智能研究等。

猜你喜欢

转载自blog.csdn.net/lianggua7074/article/details/105665396