【神经网络和深度学习】笔记 - 第四章神经网络可以实现任意函数的直观解释【转】

本文转载自：

文章导读：

1. 两个前提

2. 单输入单输出的情况

3. 一般情形：多输入多输出情况

4. 使用sigmoid以外的神经元

5. 修正阶跃函数

6.总结

神经网络最令人激动的一个性质，就是它可以实现任意功能的函数。而且是即使对于只有一个隐藏层的神经网络，这个结论依然成立。

大部分神经网络的使用者都知道这个性质，但是并不理解为什么神经网络会有这样的性质。而其理论证明对于非数学专业的同学来说并不好理解，所以本章旨在用直观的方式帮助大家理解这个性质。

一. 两个前提

神经网络可以计算任意函数其实是有前提的。

首先要明白的是它并不是可以完全准确的计算原函数的值，但是通过增加隐藏层神经元的值我们可以越来越逼近原函数。就是说对于一个需要实现的函数 $f (x)$

第二个前提是被模拟的函数是连续函数，不过有的时候对于非连续函数，神经网络得到的连续近似已经足够满足要求了。

二. 单输入单输出的情况

先考虑最基础的单输入单输出的函数情况。为了理解怎么利用神经网络去计算给定函数 $f$

考虑隐藏层第一个神经元，其输出由 $σ (w x + b)$

改变b不会使函数形状发生改变，只会使其左右偏移。因为 $f (x) = \frac{1}{1 + e^{w x + b + b_{0}}} = \frac{1}{e^{w (x + \frac{b_{0}}{w}) + b}}$
改变w则会改变函数的形状，因为 $f (x) = \frac{1}{1 + e^{(w + w_{0}) x + b}} = \frac{1}{1 + e^{w x \frac{w + w_{0}}{w} + b}}$

继续增大 $w$

当我们对隐藏层的神经元的输出进行加权求和的时候，分析阶跃函数要比分析sigmoid函数容易。我们很容易可以知道两个阶跃函数的和是什么形式，但是对于两个sigmoid函数就没有这么容易得到。所以我们先假设这些神经元输出函数就是阶跃函数，当然这也是一种近似，我们随后再看这和真正的情况相比会有什么影响。

再考虑另外一个问题，我们知道标准的 $σ (z)$

接着再来考虑整个神经网络的情况。

右边展示的是加权输出的结果 $w_{1} a_{1} + w_{2} a_{2}$

通过调节这些参数可以观察到：

调节 $s_{1}$
调节 $w_{1}$

最后，试着让 $w_{1} = 0.8, w_{2} = - 0.8$

如果我们固定 $s_{1}$

通过组合神经元我们就可以轻易得到两个门函数组合的情况：

同样的方法，我们可以构造任意数量任意高度的门函数。因为对于[0,1]这个区间的划分是可以有无限多N个的，只要使用N对隐藏层神经元就，然后分别配上对应的 $h$

上图就是一个五个宽度一样的门函数的情形，高度由各自的参数 $h$

这个函数来自：

f (x) = 0.2 + 0.4 x 2 + 0.3 x s i n (15 x) + 0.05 c o s (50 x)

看上去这个函数形式和神经网络完全没什么联系，接下来就来看看神经网络是怎么去近似计算它的。

前面提到过 $w_{1} a_{1} + w_{2} a_{2} + . . .$

于是只要有方法可以让隐藏层输出和近似等于上面反函数，就相当于神经网络的最终输出近似等于 $f (x)$

这虽然只是一个粗略的近似，结果也不唯一，但是只要通过增加门函数的个数，即增加隐藏层神经元的个数，就可以让结果越来越精确。将这个得到的模型转换到我们的神经网络参数上，隐藏层的 $w$

输出层的权重由 $h$

这样就完成了通过构造一个神经网络来逼近目标函数的目的了，而且通过增加隐藏层神经元的个数可以使得这个近似结果更加准确。事实上，我们的目标函数 $f (x) = 0.2 + 0.4 x^{2} + 0.3 s i n (15 x) + 0.05 c o s (50 x)$

三. 一般情形：多输入多输出情况

先考虑两个输入的情况：

我们将 $x$

可以看到平行于x轴的任意截面都是之前看到的平面上的曲线形式。同样的原理，改变 $w_{1}$

这里对应着 $w_{1} = 1000, w_{2} = 0$

接着通过组合，我们得到了对应门函数的一个3d情况：

注意这里的y并没有起到作用，和y相连的权重都被设置成了0。类似也有只有y的版本，将和x的相连的权重设置为0:

如果我们将这两个方向垂直的门函数相加呢：

改变 $h$

但是这就需要我们得到的是一个下图类似的塔函数：

但是我们得到的情况是除了中间是高的（ $2 h$

考虑门函数的输出值由 $h$

注意到这里的图像是输出神经元的输出，也就是经过 $σ$

接着我们将两个类似这样的神经网络组合去得到两个塔函数：

每个塔函数对应着第二个隐藏层的每个神经元的输出，调节两个 $w$

但是这毕竟不是输出层的输出，于是类似的方法我们使用 $σ$

如果输入变量个数多余两个呢？

先看一下三个变量的情况 $x_{1}, x_{2}, x_{3}$

这里 $x_{1}, x_{2}, x_{3}$

随着增大 $h$

通过组合这样的神经网络就可以将多个塔函数相组合就可以近似替代任意三个变量的函数。同样的想法可以拓展到 $m$

这样就得到了使用神经网络逼近任意输出为一维的函数的方法了。但是神经网络的输出经常是多维的 $f (x_{1}, . . ., x_{m}) \in R^{n}$

这种情况可以看作是 $n$

拓展：

上面介绍了如何用两个隐藏层的神经网络去近似表示函数，能否证明只需要一层隐藏层就可以完成这样的设计？试着在两个输入的情况下，依次证明：(a)除了x轴，y轴以外，可以构造任意方向的阶跃函数；(b)通过将大量的(a)中的函数叠加，可以得到一个底面形状不再是长方形而是圆形的塔函数；(c)使用这些圆形的塔函数，可以近似表示任意函数。

(a)：

先看一下之前得到的方向为什么是x轴，y轴，或者说这些方向是由什么决定的。 $\frac{1}{1 + e^{- (w_{1} x + w_{2} y + b)}}$

(b):

两个长方形垂直相交的重叠部分是方形，如果三个，四个呢？这个也许不好想象，但是换一个思路，对一个长方形绕着其中心旋转，中间不变的部分就是以中心为圆心的内切圆，所以只要组合足够多不同方向的(a)中阶跃函数，就可以得到近似圆形底面的塔函数。

(c)：

长方形区域很容易可以拼成一块大的区域，但是圆形却不行，它们之间总是有缝隙的。可以通过本文后面部分介绍的方法，将这些未覆盖的部分当成是“失败区域”，使用函数近似表示原函数的 $\frac{1}{M}$

这里按照作者给出的提示解答完了这三步，但是我还是不大清楚这和能用一个隐藏层有什么联系，因为圆形的塔函数依然面临之前的一个问题，就是除了中间高的区域外，还存在边上的不为0的区域，还是要依靠一个神经元将其转变为真正的塔的形式，中间凸出，边缘为0。我理解的一个隐藏层可以解决的原因是类似于在进行傅立叶级数展开的时候，我们将函数表示成一组三角函数基函数的线性叠加。其实任意连续函数都可以看作为一组基函数的叠加，然后在一个隐藏层选择合适的基函数叠加即可。

四. 使用sigmoid以外的神经元

前面已经证明了以sigmoid神经元为基础的神经网络可以计算任意函数。回忆一下sigmoid函数的形式，对于输入 $z = \sum_{j} w_{j} x_{j} + b$

如果将其换成一个不一样的激活函数 $s (z)$

会出现什么情况呢？

同样得方法，我们用这个函数也可以得到阶跃函数。试着增大 $w = 100$

类似于sigmoid函数的情况，新的激活函数一样会收缩，随着 $w$

那么是不是所有的激活函数 $s (z)$

拓展：

拓展一：

证明之前介绍的RELU神经元不满足上述的条件，但是RELU函数一样可以构造上述神经网络近似表示任意函数。

答案：

RELU在 $x > 0$

虽然一个RELU函数按照之前改变参数的方法怎么也变不成阶跃函数，但是可以通过两个RELU函数相叠加得到。对于 $y = w x$

s (x) = ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪ 0

通过增大 $w$

拓展二：

考虑激活函数为线性函数 $s (z) = z$

答案：

这个函数在 $x \to \infty$

线性函数自身不具有这样的性质，线性函数的线性组合还是连续的线性函数，依然是无法满足阶跃函数的要求的。

五. 修正阶跃函数

之前已经证明了我们通过对神经元进行组合得到近似的阶跃函数，但这始终是近似表示，其中还存在一段函数并非阶跃函数的“失败区域”：

虽然通过增大wegiths，可以使得这块区域越来越窄，也就是说与阶跃函数的差别越来越小。不过还有其他的处理这个问题的方法的话当然就更好了。

事实上，这个问题并不难解决。设想对于一个一维函数 $f (x)$

按照之前的方法，我们使用一系列的门函数去表示这个函数：

可以看到，只要门函数足够多，门的宽度足够窄就可以使得对目标函数的近似表示越好，除了在交界处的“失败区域”。

这次我们不用上面的近似，我们使用目标函数值的一半作为近似对象， $σ^{- 1} (\frac{f (x)}{2})$

接着使用另外一套隐藏层去近似表示这样的函数：它是上面门函数组成的函数横向平移半个门宽度得到的：

当我们把这两个函数叠加到一起的时候就会得到一个 $σ^{- 1} (f (x))$

通过减小每次移动的步长为窗口的 $\frac{1}{M}$

六.总结

这一章描述了神经网络拟合函数的普遍性，但是这当然不是实际中我们使用神经网络计算的方式。不过它让我们知道以后在面对一个问题的时候，不是去怀疑神经网络能不能表示这个函数，而是考虑更重要的事，怎么才能找到一个这个函数的好的近似。

我们的讨论用了两层神经元，不过一层神经元也可以完成这样的工作。那我们为什么还要去用那些层数更多的深度神经网络呢？

理论上这是可能的，不过实际上我们有很多理由相信深度网络更好。在第一章已经讨论过，现实中的问题和知识体系往往是由浅入深的层级关系，而深度网络的层级结构就非常切合这一点。例如对于图像识别的问题，只是着眼于单个像素点的理解当然是不够的，我们更希望它能够识别出更复杂的模式：从简单的线条到复杂的几何形状等等。在随后的章节也会看到，深度网络对于这种层级的问题处理结果的确要好于浅层网络。

总之就是，单层的神经网络就已经可以计算任何函数，但是经验告诉我们，在解决现实问题上，深度网络更加适合。