神经网络学习——入门(不定时更新)

主要功能:分类识别(图像、语音、文本)。其中图像和语音:密集型矩阵,文本:稀疏型矩阵

网络结构:每层的节点不一定太多,但层数在一直增长。

更深的神经网络比宽的神经网络,学习花费更低。比如10层网络能解决的问题,如果用单层解决,可能需要几千个节点。

每一层可以理解为一层理解力

如果每一个节点都是线性的,那么它的组合就是线性的,那它的组合也只能是线性的。(节点是不是线性的,取决于它的激活函数是不是线性的)

非线性的设计主要体现在神经元的设计上。

神经元的工作:

1.把输入做线性组合

2.做非线性的处理。(通过激活函数)

学习率:不能过高也不能过低。因为训练神经网络系统的过程,就是通过不断的迭代,找到让系统输出误差最小的参数的过程。每一次迭代都经过反向传播进行梯度下降,然而误差空间不是一个滑梯,一降到底,常规情况下就像坑洼的山地。学习率太小,那就很容易陷入局部最优,就是你认为的最低点并不是整个空间的最低点。如果学习率太高,那系统可能难以收敛,会在一个地方上串下跳,无法对准目标(目标是指误差空间的最低点),可以看图:

xy轴是权值w平面,z轴是输出总误差。整个误差曲面可以看到两个明显的低点,显然右边最低,属于全局最优。而左边的是次低,从局部范围看,属于局部最优。而图中,在给定初始点的情况下,标出的两条抵达低点的路线,已经是很理想情况的梯度下降路径。

猜你喜欢

转载自blog.csdn.net/weixin_41846267/article/details/83050998