强化学习调参经验大集成：TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数

1. 强化学习通用参数设置

（1）强化学习算法选用

目前推荐的使用的算法主要是：

离散控制问题建议算法：

①D3QN——D3 指的是 Dueling Double DQN，主要集成了 Double DQN 与 Dueling DQN 的方法架构，另可与 Noisy DQN 来配合γ-greedy 方法来提升探索效率。

②SAC-Discrete——提出的主要目标是用于解决混合动作空间中的决策问题，将输出的动作矢量当作每个动作的执行概率，具体效果评价有高有低。

③H-PPO——H-MPO 都是基于离散空间信息处理的 PPO 算法。

连续控制问题建议算法：

PPO+GAE——PPO 是对 TRPO 的简化版，本身就具有调参简单、鲁棒性强特点。而 GAE 指 Generalized Advantage Estimation，会根据经验轨迹生成优势函数的估计值，而后让 Critic 拟合该值，达到利用少量 trajectory 描述当前策略的目标，经验发现 GAE 虽可与多种 RL 算法结合，但与 PPO 结合效果最佳，训练最稳定、调参最简单。

SAC（Automating Temperature Parameterα版）——通过自动调整温度系数来使策略熵保持动态平衡，但有经验指出不适合最优策略有大量边界动作的任务，即若最优策略下的动作大量达到边界值时效果会变差，例如在控制机器人移动时全速移动通常是最优解，则不适合使用 SAC 算法，这主要原因是 SAC 在计算策略熵时使用了 tanh() 的导数