神经网络七十年

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/WangR0120/article/details/78337061

神经网络七十年:回顾与展望

一、M-P模型


图中,,i=1,2,…,n表示来自与当前神经元相连的其它神经元传递的输入信号,代表从神经元j 到神经元 i 的连接强度或权值,为神经元的激活阈值或偏置,f 称作激活函数或转移函数。神经元的输出可表示为

该模型从逻辑功能器件的角度来描述神经元,M-P 模型是对生物神经元信息处理模式的数学简化,后续的神经网络研究工作都是以它为基础的。

二、HEBB学习规则

Hebb 认为如果两个神经元在同一时刻被激发,则它们之间的联系应该被强化,基于此所定义的 Hebb学习规则如下所示:


其中,分别表示在t+1和t时刻时,神经元j到神经元 i 之间的连接强度,而则为神经元 i 和 j 的输出。Hebb 规则隶属于无监督学习算法的范畴,其主要思

想是根据两个神经元的激发状态来调整其连接关系,以此实现对简单神经活动的模拟。

继HEBB学习规则之后,有监督DELTA学习规则被提出。

三、DELTA学习规则

该规则用以解决在输入输出已知的情况下神经元权值的学习问题。该算法通过对连接权值进行不断调整以使神经元的实际输出和期望输出到达一致,其学习修正公式如下


其中为算法的学习速率,为神经元 i 的期望输出和实际输出,表示神经元 j 在 t 时刻的状态(激活或抑制)。

从直观上来说,当神经元 i 的实际输出比期望输出大,则减小与已激活神经元的连接权重,同时增加与已抑制神经元的连接权重;当神经元 i 的实际输出比期望输出小,则增加与已激活神经元的连接权重,同时减小与已抑制神经元的连接权重。通过这样的调节过程,神经元会将输入和输出之间的正确映射关系存储在权值中,从而具备了对数据的表示能力。Hebb 学习规则和 Delta 学习规则都是针对单个神经元而提出的

四、MARK I感知机

历史上首个将神经网络的学习功能用于模式识别的装置,标志着神经网路进入了新的发展阶段。感知机是二分类的线性判别模型,旨在通过最小化误分类损失函数来优化分类超平面,从而对新的实例实现准确预测。


感知机的假设空间是定义在特征空间中的所有线性分类器,所得的超平面把特征空间划分为两部分,位于两侧的点分别为正负两类。感知机参数的学习是基于经验损失函数最小化的,旨在最小化误分类点到决策平面的距离。

给定一组数据集,假设超平面 S下误分类点的集合为 M,则感知机学习的损失函数定义为:



优化过程采用随机梯度下降法,每次随机选取一个误分类点使其梯度下降。首先分别求出损失函数对w 和 b 偏导数:


然后,随机选取一个误分类点对 w 和 b 进行更新

其中,是学习步长。以上为感知机学习的原始形式,与之相对应的另一种结构是感知机学习的对偶形式。其基本思想是将 w 和 b 表示为所有实例点的线性组合形式,通过求解系数来得到 w 和b 。不失一般性,首先将 w 和 b 的初始值设为 0,对于误分类点按上式对W和b更新。假设共进行了n次更新,则最终学习到的w和b为


其中,

继感知机之后,许多新的学习型神经网络模型被提出,其中包括 B. Widrow 等人设计的自适应线性元件Adaline和由K. Steinbuch设计的被称为学习矩阵的二进制联想网络及其硬件实现。

五、Hopfield神经网络模型

Hopfield 网络是一种循环神经网络,从输出到输入有反馈连接,典型的 Hopfield 神经网络模型如图 2 所示。


图中,每组运算放大器及其相关的电阻、电容组成的网络代表一个神经元。每个神经元有两组输入,一组是恒定的外部电流,另一组是来自其它运算放大器输出的正向或反向的反馈连接。

Hopfield 将优化的目标函数转化为网络的能量函数,对应地将待求解问题的变量用网络中神经元的状态来表示。由这样的表示方式可知当网络的能量衰减到稳定值时,问题的最优解也随之求出。

Hopfield 网络一个重要的特点是它可以实现联想记忆功能,亦即作为联想存储器。当网络的权系数通过学习训练确定之后,即便输入不完整或者部分不正确的数据,网络仍旧可以通过联想记忆来给出完整的数据输出结果。

六、波尔兹曼机BM


波尔兹曼机是一种由随机神经元全连接组成的反馈神经网络,其包含一个可见层和一个隐层。网络中神经元的输出只有两种状态(未激活和激活,用二进制0 和 1 表示),其取值根据概率统计规则决定。波尔兹曼机具有较强的无监督学习能力,可以从数据中学习到复杂的知识规则,然而也存在着训练和学习时间过长的问题。此外,不仅难以准确计算 BM 所表示的分布,得到服从 BM 所表示分布的随机样本也很困难。基于以上原因,对波尔兹曼机进行了改进,引入了限制波尔兹曼机RBM。

RBM 的网络结构中层内神经元之间没有连接,尽管 RBM 所表示的分布仍然无法有效计算,但可以通过 Gibbs 采样得到服从 RBM 所表示分布的随机样本。Hinton 于 2002 年提出了一个 RBM 学习的快速算法(对比散度),只要隐层单元的数目足够多时,RBM 就能拟合任意离散分布。作为目前深度学习主要框架之一的深度信念网也是以RBM 为基本组成单元的。这一阶段的神经网络已经从起初的单层结构扩展到了双层,隐含层的出现使得网络具有更强的数据表示能力。

七、BP算法

BP网络的拓扑结构包括输入层、隐层和输出层,它能够在事先不知道输入输出具体数学表达式的情况下,通过学习来存储这种复杂的映射关系。其网络中参数的学习通常采用反向传播的策略,借助最速梯度信息来寻找使网络误差最小化的参数组合。常见的三层 BP 网络模型如图 4 所示。


其中,各节点的传递函数 f 必须满足处处可导的条件,最常用的为 Sigmoid 函数,第 i 个神经元的净输入为,输出为。如果网络输出层第 k个神

经元的期望输出为,则网络的平方型误差函数为


由于 BP 算法按照误差函数 E 的负梯度修改权值,故权值的更新公式可表示为




BP 的误差反向传播思想可以概括为:利用输出层的误差来估计出其直接前导层的误差,再借助于这个新的误差来计算更前一层的误差,按照这样的方式逐层反传下去便可以得到所有各层的误差估计。BP算法的提出在一定程度上解决了多层网络参数训练难的问题,但是其自身也存在如下一些问题。首先,误差在反向传播过程中会逐渐衰减,经过多层的传递后将会变得很小,这使得BP在深层网络中并不可行。其次,BP采用最速梯度下降的优化思想,而实际问题的误差函数通常不是凸的,存在众多局部极小值点,算法很难得到最优解。再次,由于训练过程依靠于导数信息来进行权值的调整,当权值调节过大时会使大部分神经元的加权和过大,致使传递函数工作于S型函数的饱和区,所以权值的调整会出现停顿的情况。最后,对于一些复杂网络的优化问题,BP算法受到学习速率的限制需要花费几个小时甚至更长的时间来完成训练任务。

根据研究结果,只要隐层神经元的个数足够多,BP 神经网络就能够保证对复杂连续映射关系的刻画能力,具有重要的理论和现实指导意义。

八、RBF径向基神经网络

RBF 神经网络是一种三层的前向网络,其基本工作原理是:利用 RBF 构成的隐藏层空间对低维的输入矢量进行投影,将数据变换到高维空间中去,以使原来线性不可分的问题能够变得线性可分。


由于输入层在 RBF 网络中仅仅起到信号的传输作用,故而输入层和隐含层之间的连接权值都为1,隐含层实现对输入特征的非线性投影,而输出层则负责最后的线性加权求和。RBF 网络中待学习优化的参数包括:基函数的中心和方差以及隐含层到输出层的连接权值。输出层负责通过线性优化策略来实现对权值的优化,学习速度通常较快;而隐含层则需要采用非线性优化的方法对激活函数的参数调整,故而其学习速度较慢。RBF 网络的参数学习方法按照径向基函数中心的选取有不同的类型,主要包括自组织选取法、随机中心法、有监督中心法和正交最小二乘法等。

以自组织法为例,其学习主要包括两个阶段,第一阶段为无监督和自组织学习阶段,用以确定隐含层基函数的中心及方差;第二阶段是有监督学习过程,可实现隐含层到输出层之间的连接权值的求解。RBF 网络有很快的学习收敛速度,一个很重要的原因在于其属于局部逼近网络,不需要学习隐含层的权值,避免了误差在网络中耗时的逐层传递过程。

九、其他发展

蔡少棠等人提出了细胞神经网络(Cellular Neural Networks),斯华玲、张清华等人提出了小波神经网络,焦李成等人提出了多小波神经网络,杨淑媛等人提出了脊波神经网络,这些模型在非平稳、非线性、非高斯信号与图像处理中表现出良好的应用潜力和价值。此后,神经网络与机器学习和模式识别的融合呈现出前所未有的局面,SVM、PCA、ICA、LDA 等模型得到广泛关注和研究,表现出良好的性能,有力促进了这一领域的进展。其中,薄列峰等人提出的大规模 SVM是这方面的典型代表。

香港中文大学的徐蕾教授提出了 Bayes 学习机和 Y-Y 机,并证明了 EM 算法的收敛性。

清华大学张钹教授提出了 PLN 神经网络模型

伯明翰大学的姚新将进化计算的搜索机制引入到人工神经网络中,提出了进化人工神经网络的概念,并且对进化神经网络进行集成以提高网络性能。

萨里大学的金耀初利用多目标遗传算法进行神经网络的正则化和集成,并且将网络用于复杂系统的建模和控制当中。

猜你喜欢

转载自blog.csdn.net/WangR0120/article/details/78337061