调试处理

对于超参数，如何才能找到一个比较好的设定呢？

这里写图片描述

如图所示，我们可能会需要调试很多的超参数。但其中最重要的超参数还是学习率。被红色圈住的是最重要的超参数，橙色的是次重要的超参数。紫色是再其次重要的。

如果想调试一系列的超参数，具体应该怎么做呢？

这里写图片描述

如图所示，我们通常情况下会采用图中右侧所示的情况来选择超参数，比如说二维情况下，我们确定选择范围之后随机选点，然后看看这个超参数效果好不好。三维也是如此。

我们还有一种超参数的选择策略

这里写图片描述

如图所示，这是一个从粗糙到精细的过程，比如说，如果你发现了某一个超参数比较好，然后就在这个更小的范围内去选项超参数，缩小选择范围可能会得到更好的结果。

为超参数选择合适的范围

我们上面介绍的随机提取并不是在有效范围内随机的均匀取值，而是选择合适的标尺，用来探究这些超参数。

这里写图片描述

如图所示，这是对参数的取值范围选取，看到均匀选取可能是合适的，但这个对于超参数而言并不成立，我们来看一下超参数是如何选取的。

这里写图片描述

如图所示，我们来看一个学习率的例子。我们如果使用均匀取值的话，那么0.1-1的概率将会占到90%，而0.001-0.1的范围只占到了10%，这就十分不合理了，所以我们使用对数标尺来搜索超参数。取值方法如图所示。

另外一个比较棘手的问题是对 $\beta$ 取值，比如他的搜索范围是从0.9-0.999

这里写图片描述

这里的0.9就相当于对10天的情况取平均，而0.999相当于对1000天的情况取平均。所以，不能使用随机平均来选取这些超参数，也要用对数的形式。

如图所示，我们换成了 $1-\beta$ 的形式，然后对数处理，在[-3,-1]里面取平均就可以了。通过这种方法就可以实现了从0.9-0.99和0.99-0.999取值一样多的情况。

因为 $\beta$ 是指数加权平均，所以一定要用对数处理一下，才能达到真正的平均。