学术分享丨面向机器人的学习算法简述

2021-02-24 20:28:11

以下文章来源于CAAI认知系统与信息处理专委会，作者马晓健

在强化学习，模仿学习及其衍生的算法之外，机器人学习还有许多其他的范式。如基于高斯过程回归和贝叶斯优化的动作规划，基于大规模优化的实时地图构建与定位，基于稀疏编码和字典学习的操作技能基元学习等。这些方法与强化学习和模仿学习虽有形式上和应用领域上的显著差异，但是作为同属于机器人学习领域的研究工作，这些算法仍然具有许多相似的特性。这些特性的存在与算法能否在机器人上得以应用息息相关。也正因为这些特性的存在，我们才将这类算法称为面向机器人的学习算法。考虑到机器人的工作场景的特点和其对技能学习的需求，面向机器人的学习算法需要具备的特性可以概括如下：

1. 在真实环境下学习

作为面向机器人的学习算法，必然面临在真实的物理环境下执行的问题。因此，完全在仿真器中完成的技能学习是不可靠的。针对这个问题的主流解决方案有两种，一是设法实现控制模型从仿真到真实环境下的迁移，二是直接在真实环境下进行学习。囿于现有模拟器对真实物理世界特性描述的不足，现有的从仿真到真实环境下的迁移的算法大都受限于所模拟器的仿真性能和精度。因而这两类算法都会不同程度的存在真实物理世界训练，或者适应性调节的步骤。在真实环境下的学习势必会带来两个直接的问题：（1）采集训练数据耗时相对较长（2）存在机械损耗。这对算法的样本利用效率和执行的安全性带来了更高的要求。

学术分享丨面向机器人的学习算法简述

2. 鲁棒性

机器人学习算法的鲁棒性体现在两个方面。首先，机器人学习算法需要做到自身的鲁棒性。亦即在优化求解和实际执行的过程中需要保持稳定收敛的特性，不能自行发散。这是保证其能输出安全稳定的机器人控制指令的前提。另一方面，机器人学习算法需要对外界环境的噪声输入和扰动鲁棒。考虑到机器人学习算法的实际执行环境的复杂程度和非结构化程度要远高于一般的机器学习算法，因此社区也对其对输入的鲁棒性提出了更高的要求。尤其是针对对抗性的噪声和干扰输入保持稳定平滑等。

3. 可解释性

相比于其他的机器学习算法，机器人学习算法的执行器往往是工作在生产环境中的具体机器人硬件，因此对系统输出的可解释性要求较高。特别的，机器人学习算法中除了需要对操作的因果性具有解释性外，还需要针对极端情况和特殊情况下的输出具有明确的限制域。这样才能进一步保证机器人执行学习算法输出过程中的安全性。

本文由CAAI认知系统与信息处理专委会供稿

学术分享丨面向机器人的学习算法简述

猜你喜欢