DL&ML基础学习一

神经网络中常用的激活函数sigmoid，tanh等，第一次听到sigmoid函数是在逻辑回归的部分，实际从该角度看神经网络是高级的分类模型，而逻辑回归也是为了分类目标，他们可以使用相同的loss function，而神经网络则是即为灵活的模型，模型自身结构可以变化，参数设定可以变，单元之间的机制可以改变，使用的激活函数、损失函数可以变化等等。激活函数是为了引入非线性性质，进行非线性分类。sigmoid函数种输出范围[0-1]，不容易发散而无法收敛，而且输出可以作为概率的表示，同时容易求导。但是sigmoid函数容易饱和，饱和意思是他的导数不再变化，当自变量z趋于极小或极大时导致sigmoid值趋于0或1，同时其导数趋于0，且变化很小，而使用例如差平方函数作为loss function则更新w权值的式子中含有sigmoid函数的导数，而导数不再变化带来的结果是w更新幅度很小，从而导致参数更新效率降低，训练时间变长。

激活函数softmax函数，对应多分类问题，共有k个类别，输出一个k维向量，每一维表示是这个类别的概率。式子中除以所有概率和，是为了归一化，是的k维向量，每一维的数字在（0,1）之间，且和为1。在判断到底是属于哪一类时，只需取输出的向量中，概率最大的那一维所对应的类别即可。

机器学习中指的归一化对输入数据的归一化，能够加快求解速度和精确度。最常用的例子是在递归下降过程中的路线，未归一化的路线明显长于归一化了的，代表求解速度。多使用线性归一化函数、0均值标准化或非线性归一化函数，主要目标在于把原始数据转化为某一个有限固定的数据区间，可能是0~1，或者均值为0方差1的高斯分布，应用场景不同。

最大熵模型maximum entropy model：熵用于表示系统状态的不确定性或混乱程度，熵越大则越混乱，随机变量不确定性越大，而此时概率分布最均匀。在满足已知约束条件之下，使得熵达到最大即最大熵模型。或者说，对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大，而考虑约束则需要引入拉格朗日算子将有约束的最优化问题转化为无约束的最优化问题。最大熵模型是用来对随机变量出现的概率分布进行预测的模型，预测概率分布就是计算每个随机变量出现的概率多少，前提是需要满足某些约束条件。

RNN的长时记忆失效问题来源于梯度消失，而梯度消失起因于多元函数求偏导的链式法则的乘法规则导致多个值小于1的项相乘结果接近于0，而这个结果却影响着参数的更新导致参数基本不再更新。既然有问题则一定有解决方法，一般是clip gradient或者LSTM等模型。梯度裁剪是指梯度一旦小到一定程度就直接将其设定为指定梯度值，tensorflow支持这种clip_gradient方法而且在RNN中用的还很频繁。LSTM用门gate的概念把这种乘法改成了加法来避免连乘带来的累计效应，如果要想具体了解LSTM的设计缘由还得看原始论文。

猜你喜欢