《强化学习周刊》第26期：UCL& UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型

关于周刊
强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第26期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和新工具、数据集等，以飨诸位。
本期贡献者：李明、刘青、小胖、陈元
文章来源：智源社区

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如目标条件强化学习、基人工决策模型强化学习、深度强化学习在恶意软件中的应用、无模型风险敏感强化学习、迁移强化学习、基于模型的强化学习、元强化学习相关的理论及其最新应用等。
本次推荐了14篇强化学习领域的相关论文，主要涉及于基于长期目标条件强化学习的后续特征标志、基于独立协作 AI 队友的人工决策模型强化学习、基于深度强化学习增强 NOP 指令的插入以混淆恶意软件、低精确度强化学习、基于模型的强化学习的有效调度、直接和间接强化学习、稀有扩散动力学的强化学习、强化学习配置交互、基于缓冲图签名的实时视频流事件元强化学习等。

标题：Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning（基于长期目标条件强化学习的后续特征标志）简介：在现实世界中动作通常需要智能体了解复杂环境，并应用这种理解来实现广泛的目标。其被称为目标条件强化学习（GCRL）的问题对于长期目标来说尤为具有挑战性。现有的方法通过使用基于图的规划算法来增强目标条件策略来解决此问题。然而，其很难扩展到大型、高维的状态空间，并假设能够访问有效收集训练数据的探索机制。本文引入后续特征标志（SFL）用于探索大型高维环境的框架，以获得能够胜任任何目标的策略。SFL利用后续特征（SF）捕捉过渡动态的能力，通过估计状态新颖性来推动探索，并通过将状态空间抽象为非参数的基于地标的图形来实现高级规划。本文应用SF直接计算地标间遍历的目标条件策略，使用该策略执行计划，在探索的状态空间边缘“前沿”地标。在MiniGrid和ViZDoom上的实验表明，SFL能够有效地探索大型高维状态空间，并在长期GCRL任务上优于最先进的基线。
论文地址：https://www.aminer.cn/pub/619715fd5244ab9dcb185a64?f=cs

标题：JHU | Reinforcement Learning on Human Decision Models for Uniquely Collaborative AI Teammates（基于独立协作 AI 队友的人工决策模型强化学习）
简介：2021年约翰·霍普金斯大学应用物理实验室举行了一次内部挑战，以开发能够在协作纸牌游戏Hanabi中表现出色的人工智能（AI）智能体。对智能体进行评估，看他们是否有能力与以前从未遇到过的人类玩家一起玩。该研究详细介绍了通过实现16.5的人类游戏平均分数而赢得挑战的智能体的开发，其表现优于目前最先进的人类机器人Hanabi分数。获胜代理的开发包括观察作者在 Hanabi 中的决策并对其进行准确建模，然后用作者的行为克隆进行训练。该智能体通过模仿人类决策发现了一种与人类互补的游戏风格，然后探索类人策略的变化，导致更高的模拟人机分数。本文详细研究了这个与人类兼容的 Hanabi 队友的设计和实施，以及人类互补策略的存在和影响，以及探索它们如何在人机团队中更成功地应用人工智能。
论文地址：https://www.aminer.cn/pub/619715fd5244ab9dcb185a1e?f=cs

标题：Enhancing the Insertion of NOP Instructions to Obfuscate Malware via Deep Reinforcement Learning（基于深度强化学习增强 NOP 指令的插入以混淆恶意软件）
简介：目前，针对恶意软件检测和分类问题的最新研究主要集中在由机器学习支持的系统的设计、实施和部署上，因为其能够推广到以前从未见过的恶意软件家族和多态突变。然而，机器学习模型，特别是深度神经网络，对精心设计的输入缺乏鲁棒性（对抗性示例）。本文研究了最先进的浅卷积神经网络恶意软件分类器对死代码插入技术的脆弱性。提出了一个由双Q网络支持的通用框架，以诱导恶意软件家族的错误分类。该框架通过卷积神经网络训练agent，以选择代码序列中的最佳位置来插入死代码指令，从而使机器学习分类器错误标记生成的可执行文件。实验表明，该方法显著地降低了分类器的分类精度，使其达到56.53%，而对于属于Kelihos_ver3、Simda和Kelihos_ver1家族的样本，其漏检率为100%。此外，与随机代理相比，错误标记恶意软件所需的平均指令数减少了33%。
论文地址：https://www.aminer.cn/pub/619715f95244ab9dcb18561e?f=cs

标题：Meta-Reinforcement Learning via Buffering Graph Signatures for Live Video Streaming Events（基于缓冲图签名的实时视频流事件元强化学习）
简介：本文提出了元学习模型，以适应参与直播视频流事件的观众之间的网络容量预测。并提出了 MELANIE 模型，将事件表述为马尔可夫决策过程，对强化学习任务执行元学习。通过将新事件视为一项任务，设计了演员-评论家学习方案来计算估计观众高带宽连接的最佳策略。为确保在事件期间快速适应观众之间的新连接或变化，本文基于观众连接的回报/吞吐量的Kullback-Leibler差异实现了优先级重播内存缓冲区。此外，通过采用与模型无关的元学习框架从过去的事件中生成全局模型。由于观众很少参与几个事件，故挑战在于如何解释不同事件的低结构相似性。为了解决这个问题，设计了图形签名缓冲区来计算几个流事件的结构相似性，并相应地调整全局模型的训练。在实时视频流事件的三个真实世界数据集上评估链接权重预测任务的建议模型。研究结果表明了该模型与最先进的策略相比，平均相对增益为 25%。
论文地址：https://www.aminer.cn/pub/619715f95244ab9dcb1854e7?f=cs

标题: AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning (AdaRL：在迁移强化学习中适应什么、在哪里和如何适应)
简介: 强化学习（RL）中的大多数方法都是数据缺少的，并且特定于固定的环境。本文提出了原则性的自适应RL框架AdaRL，它能够可靠地适应跨域的变化。具体地说，其为系统中变量之间的结构关系构建了一个生成环境模型，并以一种紧凑的方式嵌入了变化，这为定位变化是什么、在哪里以及如何适应变化提供了一个清晰的、可解释的图像。基于环境模型，描述了一个最小的表示集，包括领域特定的因素和领域共享状态表示，足以实现可靠和低成本的迁移。此外，研究表明，通过显式地利用紧凑的表示来编码更改，可以只使用少量样本来调整策略，而无需在目标域中进一步优化策略。通过一系列实验来说明AdaRL的有效性，这些实验允许Cartpole和Atari游戏的不同组件发生变化。
论文地址：https://www.aminer.cn/pub/60e571cadfae54c432544163?f=cs

标题: Embracing the Dark Knowledge: Domain Generalization Using Regularized Knowledge Distillation (拥抱黑暗知识：使用正则化知识蒸馏的领域概括)
简介: 虽然卷积神经网络在不同的任务中有着广泛的应用，但在缺乏足够的、有代表性的数据的情况下，其泛化能力的不足是阻碍其实际应用的难题之一。本文提出了一种简单、有效、即插即用的领域综合知识提取（KDDG）训练策略，该策略建立在以梯度滤波器作为正则化项的知识提取框架之上。我们发现，教师网络中的“丰富的暗知识”以及提出的梯度滤波器都可以降低学习映射的难度，从而进一步提高模型的泛化能力。此外，还进行了大量的实验,表明该框架能够显著提高深度神经网络在图像分类、分割、强化学习等不同任务中的泛化能力。最后，通过采用两个指标来分析所提出的方法，以便更好地了解本文提出的方法如何有利于深层神经网络的泛化能力。
论文地址：https://www.aminer.cn/pub/60e56e42dfae54c4325440ff?f=cs

标题：Low-Precision Reinforcement Learning(低精确度强化学习)
简介：在监督学习中，低精度训练已成为减少计算时间、内存占用和能耗的常用方法。相比之下，这种有希望的方法在强化学习（RL）社区中没有得到类似的广泛采用，部分原因是RL代理的训练可能非常困难——即使是完全精确的训练。本文考虑连续控制与先进的SAC代理，并证明。本文提出了一组六个修改，都很容易实现，使底层代理保持不变，但显著提高了其数值稳定性。改进后的SAC代理在匹配全精度奖励的同时具有较低的内存和计算要求，从而证明了低精度RL的可行性。
论文地址：https://www.aminer.cn/pub/603cc2e091e011aeee150777?f=cs

标题：On Effective Scheduling of Model-based Reinforcement Learning（基于模型的强化学习的有效调度）
简介：基于模型的强化学习因其优越的样本效率而受到广泛关注。尽管迄今为止它取得了令人印象深刻的成功，但仍不清楚如何适当地调度重要的超参数以实现足够的性能，例如Dyna风格的基于模型的算法中用于策略优化的真实数据比率。本文首先从理论上分析了真实数据在政策培训中的作用，这表明逐渐增加真实数据的比例会产生更好的绩效。受分析的启发，本文提出了一个名为AutoMBPO的框架，用于在基于模型的策略优化（MBPO）算法的训练中自动调度实际数据比率以及其他超参数，这是一个基于模型的方法的典型运行案例。在多个连续控制任务上，使用AutoMBPO调度的超参数训练的MBPO实例可以显著超过原始实例，并且AutoMBPO发现的实际数据比率调度与我们的理论分析一致。
论文地址：https://www.aminer.cn/pub/619472d45244ab9dcbd2de6a?f=cs

标题：Is Learning World Model Always Beneficial For Reinforcement Learning? （学习世界模式是否总是有利于强化学习？）
简介：该文在基于模型的强化学习（MBRL）中提出了一个假设：RL代理可以通过学习与学习世界模型交互并利用环境的不完美信息来更快地学习解决任务。文章开发了两种不同的架构来评估这一假设。实验表明，访问此类信息的策略在toy基准上优于独立策略。研究结果表明，这是一项很有希望的收入，用于研究不依赖于推广的高效MBRL算法。
论文地址：https://www.aminer.cn/pub/61a4ad3b6750f8114fdaa0c8?f=cs
标题：Direct and indirect reinforcement learning（直接和间接强化学习）
简介：强化学习（RL）算法已成功应用于一系列具有挑战性的顺序决策和控制任务。本文根据如何寻求马尔可夫决策过程问题的最优策略，将RL分为直接RL和间接RL。前者通过使用梯度下降法直接最大化目标函数来求解最优策略，其中目标函数通常是对未来累积回报的期望。后者通过求解Bellman方程间接地找到最优策略，这是Bellman最优性原理的充分必要条件。文章研究了直接RL和间接RL的策略梯度（PG）形式，并证明它们都可以导出行动者-批评家体系结构，并且可以统一为具有近似值函数和稳态分布的PG，揭示了直接RL和间接RL的等价性。文章采用Gridworld任务来验证不同形式PG的影响，并在实验上指出它们的差异和关系。最后，文章使用直接分类法和间接分类法以及其他分类法对当前主流的RL算法进行分类，包括基于值和基于策略、基于模型和无模型。
论文地址：https://www.aminer.cn/pub/5e01e1d13a55ac7df001961b?f=cs

标题：Input addition and deletion in reinforcement: towards protean learning （强化中的输入添加和删除：走向多变的学习）
简介：强化学习 (RL) 智能体通常被认为是自适应决策程序，处理称为“状态”、“动作”和“奖励”的输入/输出数据流。当前关于 RL 对变化的适应性的大多数研究都是在假设流签名（即输入和输出的数量和类型）在整个智能体生命周期中保持不变前提下进行的。本文放宽了这一假设，并认为签名变化定义了一种称为 Protean Learning (PL) 的新学习情况。当它们发生时，传统的 RL智能体变得不确定，因此它们需要重新开始学习。本文首先构建了一个面向流的形式主义来正确定义 PL 和签名更改。然后，在理想化的 PL 情况下运行实验，其中在学习过程中发生输入添加和删除。结果表明，一个简单的面向 PL 的方法可以很好地适应这些参数变化，并且比重新启动过程更有效。
论文地址：https://www.aminer.cn/pub/619797145244ab9dcb14627d?f=cs

标题：Learning offline: memory replay in biological and artificial reinforcement learning（离线学习：生物和人工强化学习中的记忆重放）
简介：学习在环境中行动以最大化奖励是大脑的关键功能之一。这个过程通常在强化学习的框架内被概念化，强化学习作为优化决策的一种方式在机器学习和人工智能 (AI) 中也越来越突出。生物强化学习和机器强化学习的一个共同方面是重新激活以前经历过的情节，称为重放。重放对于生物神经网络中的记忆巩固很重要，并且是稳定深度神经网络学习的关键。本文回顾了有关重放在神经科学和人工智能领域中功能作用的最新进展。互补的进展表明重放可能如何支持学习过程，包括泛化和持续学习，提供跨领域转移知识的机会，以促进对生物和人工学习和记忆的理解。
论文地址：https://www.aminer.cn/pub/614a9eca5244ab9dcbc38bab?f=cs

标题：Reinforcement learning of rare diffusive dynamics（稀有扩散动力学的强化学习）
简介:本文提出了一种使用强化学习直接探测稀有分子动力学轨迹的方法。文中考虑在有限时间内配置空间的区域之间的过渡的轨迹，例如与反应事件研究相关的轨迹；以及在长时间限制内表现出时间积分量的罕见波动的轨迹，例如在大偏差函数的计算中所涉及的那些轨迹。在这两种情况下，强化学习技术都用于优化附加力，以最小化条件轨迹集合和驱动轨迹集合之间的 Kullback-Leibler 散度。在优化的附加力下，系统将罕见的波动演变为典型的波动，从而对其在原始轨迹系综中的似然性进行变分估计。建议使用值函数的低方差梯度来增加最佳力的收敛。本文开发的使用这些梯度的方法可以有效和准确地估计各种模型系统的最佳力和罕见事件的可能性。
论文地址：https://www.aminer.cn/pub/609a2ff791e011a44725cb76?f=cs

标题：Reinforcement Learning Configuration Interaction（强化学习配置交互）
简介：选择配置相互作用 (sCI) 方法利用全配置相互作用 (FCI) 波函数的稀疏性，在不牺牲精度的情况下产生显著的计算节省和波函数压缩。尽管最近 sCI 方法取得了进展，但重要决定因素的选择仍然是一个悬而未决的问题。本文探索了利用强化学习方法解决 sCI 问题的可能性。通过将配置交互问题映射到顺序决策过程，智能体即时学习要包含哪些决定因素以及要忽略哪些决定因素，从而产生接近 FCI 精度的压缩波函数。本文使用强化学习配置交互的方法为 sCI 武器库添加了另一种武器，并突出了强化学习方法如何潜在地帮助解决电子结构理论中的挑战性问题。
论文地址：https://www.aminer.cn/pub/6124d1565244ab9dcb9aff11?f=cs

综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述
简介：深度强化学习 (DRL) 中的泛化研究旨在产生 RL 算法，其策略可以很好地泛化到部署时新的未知情况，避免过度拟合其训练环境。如果要在现实世界的场景中部署强化学习算法，解决这个问题至关重要，在现实世界中，环境将是多样的、动态的和不可预测的。本综述是对这一新兴领域的概述。通过提供了一个统一的格式和术语来讨论不同的泛化问题，在已有研究的基础上。继续对现有的泛化基准以及解决泛化问题的方法进行分类。最后，对该领域的现状进行了批判性讨论，包括对未来研究的建议。本文认为对基准设计采用纯程序性内容生成方法不利于推广，其建议快速在线适应和解决RL特定问题，并在未充分探索的问题环境中建立基准，如离线RL概括和奖励函数变化。
论文地址：https://www.aminer.cn/pub/619715fa5244ab9dcb1856fe?f=cs

《强化学习周刊》第26期：UCL& UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型

猜你喜欢