机器学习-激活函数

激活函数

激活函数是作用于神经网络神经元输出的函数。只有加入了非线性激活函数之后，深度神经网络才具备了分层的非线性映射学习能力，常用的激活函数如下图所示。
这里写图片描述
linear为线性激活函数，表达式为，用于回归神经网络输出（或二分类问题）；

sigmoid为非线性激活函数这里写图片描述，用于隐层神经元输出，将一个real value映射到（0,1）的区间，可以用来做二分类，函数在两端附近的梯度较小，这也是sigmoid的缺点，在这些x值处，梯度容易饱和，从而造成参数无法更新或者更新很慢，向传播求误差梯度时，求导涉及除法，计算量相对大；
Sigmoid函数就是二项逻辑回归模型，这里写图片描述
tanh为非线性激活函数，用于隐层神经元输出，将一个real value映射到（-1,1）的区间，有梯度饱和的情况存在，但比sigmoid函数延迟了饱和期；

ReLU为分段激活函数，也叫修正线性单元这里写图片描述，用于隐层神经元输出，消除了梯度饱和的情况，Relu会使一部分神经元的输出为0，网络的稀疏性，减少了参数的相互依存关系，缓解了过拟合问题的发生，一般现在神经网络的激活函数默认使用ReLu；

Softmax为非线性激活函数这里写图片描述，用于多分类神经网络输出，把一个k维的real value向量（a1,a2,a3,a4….）映射成一个（b1,b2,b3,b4….）其中bi是一个0-1的常数，然后可以根据bi的大小来进行多分类的任务，取权重最大的一维；

最大熵模型和多项逻辑回归模型对比

最大熵模型如下式
这里写图片描述
多项逻辑回归模型如下式

最大熵模型与逻辑回归模型的区别：引自
王赟 Maigo
一般说的“特征”都是指输入的特征，而最大熵模型中的“特征”指的是输入和输出共同的特征。
最大熵模型中的每个特征会有一个权重，你可以把它理解成这个特征所描述的输入和输出有多么倾向于同时出现。
可以以多类logistic regression为例，来感受一下两种视角的不同。
在一般的视角下，每条输入数据会被表示成一个n维向量，可以看成n个特征。而模型中每一类都有n个权重，与n个特征相乘后求和再经过softmax的结果，代表这条输入数据被分到这一类的概率。
在最大熵模型的视角下，每条输入的n个“特征”与k个类别共同组成了nk个特征，模型中有nk个权重，与特征一一对应。每个类别会触发nk个特征中的n个，这n个特征的加权和经过softmax，代表输入被分到各类的概率。

深度学习笔记–激活函数
 ReLu(Rectified Linear Units)激活函数