2.3.1 为超参数选择合适的范围

调试处理

对于超参数,如何才能找到一个比较好的设定呢?

这里写图片描述

如图所示,我们可能会需要调试很多的超参数。但其中最重要的超参数还是学习率。被红色圈住的是最重要的超参数,橙色的是次重要的超参数。紫色是再其次重要的。

如果想调试一系列的超参数,具体应该怎么做呢?

这里写图片描述

如图所示,我们通常情况下会采用图中右侧所示的情况来选择超参数,比如说二维情况下,我们确定选择范围之后随机选点,然后看看这个超参数效果好不好。三维也是如此。

我们还有一种超参数的选择策略

这里写图片描述

如图所示,这是一个从粗糙到精细的过程,比如说,如果你发现了某一个超参数比较好,然后就在这个更小的范围内去选项超参数,缩小选择范围可能会得到更好的结果。

为超参数选择合适的范围

我们上面介绍的随机提取并不是在有效范围内随机的均匀取值,而是选择合适的标尺,用来探究这些超参数。

这里写图片描述

如图所示,这是对参数的取值范围选取,看到均匀选取可能是合适的,但这个对于超参数而言并不成立,我们来看一下超参数是如何选取的。

这里写图片描述

如图所示,我们来看一个学习率的例子。我们如果使用均匀取值的话,那么0.1-1的概率将会占到90%,而0.001-0.1的范围只占到了10%,这就十分不合理了,所以我们使用对数标尺来搜索超参数。取值方法如图所示。

另外一个比较棘手的问题是对 β 取值,比如他的搜索范围是从0.9-0.999

这里写图片描述

这里的0.9就相当于对10天的情况取平均,而0.999相当于对1000天的情况取平均。所以,不能使用随机平均来选取这些超参数,也要用对数的形式。

如图所示,我们换成了 1 β 的形式,然后对数处理,在[-3,-1]里面取平均就可以了。通过这种方法就可以实现了从0.9-0.99和0.99-0.999取值一样多的情况。

因为 β 是指数加权平均,所以一定要用对数处理一下,才能达到真正的平均。

吴教主深度学习和神经网络课程总纲

猜你喜欢

转载自blog.csdn.net/Einstellung/article/details/80067928