深度学习 | 关于激活函数你必须知道的20个知识点

1. 什么是激活函数?
激活函数是神经网络中添加的非线性函数,用于决定神经元的输出。

2. 激活函数的作用是什么?
激活函数的作用是引入非线性,Without激活函数,神经网络将只是多个线性方程的叠加,无法学习线性模式。

3. 常见的激活函数有哪些?
常见的激活函数有ReLU、sigmoid、tanh、softplus等。

4. ReLU激活函数的表达式是什么?
ReLU激活函数的表达式是f(x) = max(0, x)。

5. sigmoid激活函数的表达式是什么?曲线图是什么样子的?
sigmoid激活函数的表达式是f(x) = 1/(1+e^-x)。它的曲线是S曲线。

6. tanh激活函数的表达式是什么? 与sigmoid的区别是什么?
tanh激活函数的表达式是f(x) = (e^x - e^-x) / (e^x + e^-x)。与sigmoid相比,tanh函数的输出范围是-1到1,sigmoid的输出范围是0到1。

7. 激活函数为什么要非线性?
因为线性函数无法拟合复杂的非线性模式。激活函数的非线性性质给神经网络引入了非线性,使其能够拟合非线性模式。

8. 激活函数的选择原则是什么?
选择原则主要考虑函数的非线性度、导数性质、计算复杂度等。一般来说,ReLU和sigmoid最为常用。

9. 单层神经网络和多层神经网络的区别在于什么?
单层神经网络只有一层激活函数,多层神经网络有多层激活函数,可以拟合更加复杂的非线性关系。

10. 激活函数为什么要取值在0到1或者-1到1之间?
这是为了演化网络中参数的值,如果没有这个范围限制,参数可能会增长到很大或者变为NaN,使学习过程变得不稳定。

11. softplus激活函数的表达式是什么?
softplus激活函数的表达式是f(x) = log(1 + e^x)。

12. softmax激活函数的作用是什么?
softmax激活函数的作用是用于多分类问题,它可以将多个实数映射到(0,1)区间,且归一化的和为1。

13. 激活函数可微是什么意思?其重要性是什么?
可微意味着激活函数具有连续的一阶导数和二阶导数。这很重要,因为大多数深度学习优化算法依赖于激活函数的导数计算梯度。

14. ReLU函数的可微性如何?
ReLU函数在x = 0处不可微,但在x != 0处可微,所以整体来说ReLU函数是部分可微的。

15. 激活函数的饱和性是什么?
激活函数的饱和性指激活函数输出随输入无限增加而趋向固定值的性质。例如,sigmoid函数的饱和范围是(0,1),tanh函数的饱和范围是(-1,1)。

16. 梯度消失问题的原因是什么? 梯度爆炸问题又是什么?
梯度消失问题是指在训练深层神经网络时,gradients会指数衰减,最终"消失"。梯度爆炸问题是gradients会指数增长,最终"爆炸"。这两个问题的原因都是激活函数的饱和性。

17. 如何缓解梯度消失和梯度爆炸问题?
常用的方法是选择合适的激活函数,例如ReLU可以缓解梯度消失问题。也可以使用梯度裁剪、权重初始化等方法。

18. erf激活函数表示什么?
erf代表误差函数(error function)。它的表达式是erf(x) = (2/√π)*∫_0^x e^(-t^2) dt。

19. maxout激活函数的作用是什么?
maxout激活函数的作用是生成激活值的链接,这给神经网络引入了多路选择结构,有正则化的效果,可以缓解过拟合问题。

20. 激活函数还有哪些常见的选择?
其他常见的激活函数还有ULATE、Swish、Mish、GELU等。它们各有优点,在不同的模型和任务中有不同的效果。