（花书）Deep Learning ch2-ch3

第2章线性代数
2.4 线性相关和生成子空间
为了分析方程Ax=b有多少个解，可以将A的列向量看作从原点（元素都是零的向量）出发的不同方向，确定有多少种方法可以到达向量b。在这个观点下，向量x中的每个元素表示我们应该沿着这些方向走多远。形式上，一组向量的线性组合，是指每个向量乘以对应标量系数之和。一组向量的生成子空间是原始向量线性组合之后所能抵达的点的集合，
确定Ax=b是否有解，相当于确定向量b是否在A列向量的生成子空间中。这个特殊的生成子空间被称为A的列空间或者A的值域。

2.8 奇异值分解
有一种分解矩阵的方法，叫做奇异值分解，是将矩阵分解为奇异向量和奇异值。通过奇异值分解，我们可以得到一些与特征分解相同类型的信息。然而，奇异值分解有更广泛的应用。每个是实数矩阵都有一个奇异值分解，但不一定有特征分解。
奇异值分解将矩阵A进行如下分解：A=UDVT
其中A为mxn的矩阵，U为mxm的矩阵，D为mxn的矩阵，注意D不一定为方阵。D对角上的元素称为A的奇异值。U的列向量称为左奇异向量，V的列向量称为右奇异向量。

第3章概率与信息论
3.9.5 Dirac分布和经验分布
在一些情况下，我们希望概率分布中的所有质量都集中在一个点上。这可以通过Dirac delta 函数定义概率密度函数来实现：
p(x) = delta(x - mu)
Dirac delta被定义成在除了0意外的所有点的值都为0，但是积分为1。Dirac分布经常作为经验分布的一个组成部分出现：

只有定义连续型随机变量的经验分布时，Dirac delta函数才是必要的。对于离散型随机变量，情况更加简单：经验分布可以被定义成一个Multinoulli分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率。

3.9.6 分布的混合
混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略。一个非常强大且常见的混合模型是高斯混合模型，它的组件是高斯分布，每个组件都有各自的参数。高斯混合模型是概率密度的万能近似器，在这种意义下，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。

3.10 常用函数的有用性质
1.logistic sigmoid：

该函数可以用来产生伯努利分布中的参数fai，因为sigmoid的变化范围是(0,1)，处在fai的有效取值范围之内。Sigmoid函数在变量绝对值非常大时会出现饱和现象，意味着函数会变得很平，并且对输入的微小改变变得十分不敏感。
2.softplus函数

该函数可以用来产生正态分布的beta和sigma参数，因为它的范围是(0, 正无穷)。Softplus函数名来源于它是另外一个函数的平滑形式，即x+ = max(0, x)

3.13 信息论
信息论的基本想法是一个不太可能的时间居然发生了，要比一个非常可能的事件发生，能提供更多信息。我们想要通过这种基本想法来量化信息。特别是：
• 非常可能发生的事件信息量要比较少，并且极端情况下，确保可能发生的事件应该没有信息量。
• 较不可能发生的事件具有较高的信息量。
• 独立事件具有增量信息。
我们定义一个事件x的自信息为： I(x) = -logP(x)
自信息只处理单个输出。我们可以用香农熵来对整个概率分布中的不确定性总量进行量化: H(x) = E x~P [I(x)] = Ex~P[-logP(x)]
换句话说，一个分布的香农熵是指遵循这个分布的事件所产生的期望信息的总量。那些确定性分布（输出几乎可以确定）具有较低的熵，那些接近均匀分布的概率分布具有较高的熵。

如果一个neuron的输入一直都是正值的话，w的梯度也一直都为正或负，这也是我们需要零均值数据的原因。
1.对于sigmoid存在3个问题：
(1) saturated neurons kill the gradients
(2) sigmoid outputs are not zero-centered
(3) exp() is a bit computing expensive
2.对于tanh：
(1) squashes number to range [-1, 1]
(2) zero-centered
(3) still kills the gradient when saturated
3.对于ReLU：
(1) does not saturate (in “+” region)
(2) very computationally efficient
(3) converges much faster than sigmoid/tanh in practice
(4) actually more biologically plausible than sigmoid
(5) non zero-centered output
4. Leaky ReLU: f(x) = max(0.01x, x)
(1) does not saturate
(2) computationally efficient
(3) converges much faster than sigmoid/tanh in practice
(4) will not “die”
5.Parametric ReLU: f(x) = max{\alpha * x, x}:
backprop into \alpha (parameter)
6.ELU:
f(x) = x (x > 0) f(x) = a(exp(x) - 1) (x <= 0)
(1) all benefits of ReLU
(2) closer to zero-mean outputs
(3) negative saturation region
(4) compared with Leaky ReLU, adds some robustness to noise
7.maxout “Neuron” max(w1T + b, w2T + b)

总结：
1.用ReLU（注意学习率）
2.尝试Leaky ReLU/ maxout/ ELU
3.用tanh but don’t expect much
4.别用sigmoid

（花书）Deep Learning ch2-ch3

猜你喜欢