摘要

针对问题：需要考虑温度特性的密集物体抓取
提出模型：一种基于深度强化学习的密集物体温度优先推抓(TPG)方法

方法涉及一种深度Q网络算法，以RGB-D图像与红外图像作为输入，使用两个全卷积网络(FCN)，将推动和抓取放在一个框架内联合动作，输出对应的Q值，指导机器人对密集物体进行推抓动作，并与环境交互获得奖励。

关键词

深度强化学习；
全卷积网络；
密集物体抓取红外图像；
温度奖励；

引言

机器人的抓取需考虑有温度优先性，在抓取过程中最大程度地优先抓取高温物体，以降低对设备与环境的危害。

深度强化学习简介

DQN使用深度神经网络(DNN)作为非线性函数近似器来近似Q值，并通过目标Q网络计算目标值 $y_{t}$ ，以此更新Ｑ网络参数， $y_{t}$ 表示为如下式子。
$y_{t} = r(s_{t},a_{t}) + \gamma \max_{a^{\prime}} Q^{\theta^{\prime}}(s_{t+1},a^{\prime})$
$\theta^{\prime}$ 为目标Q网络的参数。

密集物体温度优先推抓方法

场景分析

温度优先抓取则需要最大程度地优先抓取温度较高的物体。
若该物体位于堆叠物体下部，则抓取轨迹会被阻挡，普通抓取动作难以完成任务。
TPG方法可以先对物体进行推动，为抓取动作提供足够的空间。
论文图片1

模型建立

TPG方法总体描述

TPG方法总体描述如下。

首先由RGB-D相机与红外热像仪提取环境状态，经过点云匹配与正交变换转换成高度图；
将高度图旋转16次，再分别经过两个FCN输出所有像素点的Q值；
依据Q值和 $\epsilon$ —贪婪策略指导动作，并获得奖励；
不断通过目标Ｑ网络进行训练。

论文图片3

状态

$s_{t} = \{ s_{t}^{RGB-D},s_{t}^{HOT} \}$
$s_{t}^{RGB-D} \rightarrow$ RGB-D图像
$s_{t}^{HOT} \rightarrow$ HOT图像

状态 $s_{t}$ 经过3D点云匹配和重力方向投影生成高度图，其中高度图的边缘是依据末端执行器的工作空间来定义的，工作空间为一个面积为 $S$ 的正方形正方形面积是 $448mm^{2}$ 。

动作

$a_{t} = \{ \omega,f,p \}$
$\omega \rightarrow$ 推/抓取动作
$\rightarrow$ 推/抓取动作的方向

$f$ 反映了末端执行器的旋转角度，由于直接建立从状态到旋转角度的映射较为困难，因此，将输入高度图旋转16次（每隔 $22.5\degree$ 旋转一次），对应输出16张Q值图，采用这种方法使机器人对旋转方向的选择近似为对16张Q值图的选择。

$\rightarrow$ 推/抓取动作在图像中的位置

状态动作值函数——FCN

$x_{p}$ 和 $x_{g}$ 具有相同前向传递结构。首先两个网络的DenseNet-121分别在ImageNet上预训练，然后经过通道级联和两个 $\times 1$ 的卷积层（每层包括一个批量归一化BN层和一个非线性激活函数RELU层）。DenseNet由多个Dense Block组成，每一层的输入都与前面所有卷积层的输出有关。

奖励函数

$r(s_{t},a_{t}) = \begin{cases} r_{p},&pushing; \\ r_{g}+r_{g-hot},&grasping; \end{cases} \\ = \begin{cases} 0.5,&pushing; \\ 1.0+\frac{\rho B}{t_{max}}\log(\frac{256A}{(X-128)(R+L)\tau \xi}+1),&grasping; \end{cases}$
具体参数意义

训练过程

使用Huber损失函数进行训练。
$L_{t} = \begin{cases} \frac{1}{2}(y_{i}^{\theta^{\prime}}-Q^{\theta_{i}}(s_{i},a_{i}))^{2},&|y_{i}^{\theta^{\prime}}-Q^{\theta_{i}}(s_{i},a_{i})|<1 \\ -\frac{1}{2},&else \end{cases}$

变量名	数值
训练方法	动量梯度下降
动量值	0.9，权重衰减 $2^{-5}$
学习率	0.0001
$\gamma$	0.5
经验回放	对于不同的经验集设置不同的采样权值，采样权值与经验集的时间差分有关
$\epsilon$	在前500次动作中取值为0.5，在500~1000次动作中从0.5逐步衰减到0.1，并在后续训练中保持不变

论文图片4

实验与结果分析

仿真实验

RTX2080显卡
V-REP仿真软件中的UR5机械臂和RG2机械手进行动作
使用内部的V-REP逆运动学模块进行运动规划
论文图片5

训练实验与结果分析

设置三组测试实验。

TPG方法；
无红外图像与温度奖励（no temperature，PG）方法；
无推动（no pushing，TG）方法。

设置四个主要评价指标。

平均完成率 $C$ ；
平均抓取成功率 $G C$ ；
温度相关度 $T R$ ，表征机器人抓取动作对高温对象的优先性；
$\frac{1}{T_{max}}\sum_{k=0}^{9}[\mathbf{sign}(t_{o}^{k+1}-t_{o}^{k})](t_{o}^{k+1}-t_{o}^{k})^{2}$
式中 $k$ 为成功抓取物体的次序编号， $\mathbf{sign}$ 为符号函数， $t^{k}_{o}$ 为ｋ编号下对应物体的温度， $T_{max}$ 为理想抓取次序（严格按照高温到低温抓取）下的温度相关系数；
动作效率 $E$ ，用于表征推动和抓取动作的质量；
$\frac{\mathbf{num}(obj)}{\mathbf{num}(all)}$
式中 $\mathbf{num}(obj)$ 为抓取对象的数量， $\mathbf{num}(all)$ 为所有动作数量之和。

论文表格1

测试实验与结果分析

由于红外图像的加入丰富了输入特性，有利于机器人充分提取环境信息，从而选择更好的动作，提升抓取成功率

【论文笔记】基于深度强化学习的密集物体温度优先推抓方法

目录

摘要

关键词

引言

相关研究