神经网络

神经网络

神经元模型
感知机与多层网络

多层前馈神经网络（multi-layer feedforward neural networks）

误差逆传播（error BackPropagation，简称BP）算法

累积误差逆传播（accumulated error backpropagation）算法

全局最小与局部极小
其他常见神经网络

RBF（Radial Basis Function，径向基函数）网络
ART网络
SOM网络
级联相关网络
Elman网络
Boltzmann机

受限的Boltzmann机

深度学习

特征学习

神经网络

神经元模型

神经网络：是由具有适应性的简单单元组成的广泛并行互连的网络，它能够模拟生物神经系统对真实世界物体所作出的交互反应。

神经网络中最基本的成分是神经元模型，即上述定义中的“简单单元”。

在这里插入图片描述

在这里插入图片描述
把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络。

感知机与多层网络

感知机（Perceptron）由两层神经元组成（输入层、输出层），输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称“阈值逻辑单元”（threshold logic unit）。

感知机能容易的实现逻辑与、或、非运算。

在这里插入图片描述

要解决非线性可分问题，需考虑使用多层功能神经元。如下图中这个简单的两层感知机就能解决异或问题。

多层前馈神经网络（multi-layer feedforward neural networks）

每层神经元与下一层神经元完全互连，神经元之间不存在同层连接，也不存在跨层连接。
在这里插入图片描述

误差逆传播（error BackPropagation，简称BP）算法

在这里插入图片描述

BP算法的工作流程：

累积误差逆传播（accumulated error backpropagation）算法

在这里插入图片描述

只需要一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数。

缓解BP网络过拟合的策略：

早停（early stopping）
将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同事返回具有最小验证集误差的连接权和阈值。
正则化（regularization）

全局最小与局部极小

在这里插入图片描述

其他常见神经网络

RBF（Radial Basis Function，径向基函数）网络

RBF（Radial Basis Function，径向基函数）网络是一种单隐层前馈神经网络，使用径向基函数作为隐层神经元激活函数，而输出层则是对隐层神经元输出的线性组合。

假定输入为 d 维向量 x ，输出为实值，则RBF网络可表示为：
在这里插入图片描述

ART网络

竞争性学习（competitive learning）是神经网络中一种常用的无监督学习策略——网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被激活，其他神经元的状态被抑制。这种机制亦称“胜者通吃”（winner-take-all）原则。

ART（Adaptive Resonance Theory，自适应谐振理论）网络是竞争型学习的重要代表。该网络由比较层、识别层、识别阈值和重置模块构成。
在这里插入图片描述
比较层负责接收输入样本，并将其传递给识别层神经元。
识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增长以增加新的模式类。

在接收到比较层的输入信号后，识别层神经元之间相互竞争以产生获胜神经元。竞争的最简单方式是，计算输入向量与每个识别层神经元所对应的模式类的代表向量之间的距离，距离最小者胜。
获胜神经元将向其他识别层神经元发送信号，抑制其激活。
若输入向量与获胜神经元所对应的代表向量之间的相似度大于识别阈值，则当前输入样本将被归为该代表向量所属类别，同时，网络连接权将会更新，使得以后在接收到相似输入样本时该模式类会计算出更大的相似度，从而使该获胜神经元有更大可能获胜；
若相似度不大于识别阈值，则重置模块将在识别层增设一个新的神经元，其代表向量就设置为当前输入向量。

可塑性（plasticity）：神经网络学习新知识的能力
稳定性（stability）：神经网络在学习新知识时要保持对旧知识的记忆
稳定性-可塑性窘境（stability-plasticity dilemma）

ART网络的重要优点：可进行增量学习（incremental learning）

增量学习是指在学得模型后，再接受到训练样例时，仅需根据新样例对模型进行更新，不必重新训练整个模型，而且先前学得的有效信息不会被冲掉。

SOM网络

SOM（Self-Organizing Map，自组织映射）网络是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间（通常为二维），同事保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。
在这里插入图片描述
SOM的训练目标就是为每个输出层神经元找到合适的权向量，以达到保持拓扑结构的目的。

SOM训练过程：

在接收到一个训练样本后，每个输出层神经元会计算该样本与自身携带的权向量之间的距离，距离最近的神经元成为竞争获胜者，称为最佳匹配单元（best matching unit）。
最佳匹配单元及其邻近神经元的权向量被调整，以使得这些权向量与当前输入样本的距离缩小。这个过程不断迭代，直至收敛。

级联相关网络

结构自适应网络将网络结构也当做学习的目标之一，并希望能在训练过程中找到最符合数据特点的网络结构。

级联相关（Cascade-Correlation）网络是结构自适应网络的重要代表。
级联：指建立层次连接的层级结构。
相关：指最大化新神经元的输出与网络误差之间的相关性来训练相关的参数。
在这里插入图片描述

优点：
级联相关网络无需设置网络层数、隐层神经元数目，且训练速度较快。
缺点：
在数据较小时易陷入过拟合。

Elman网络

递归神经网络（recurrent neural networks）允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信号。

Elman网络是最常用的递归神经网络之一。
在这里插入图片描述

Boltzmann机

Boltzmann机是一种基于能量的模型——为网络状态定义一个能量，能量最小化时网络达到理想状态，网络的训练就是在最小化这个能量函数。
在这里插入图片描述
Boltzmann机的神经元分为两层：显层和隐层。
显层用于数据的输入和输出；
隐层被理解为数据的内在表达。
若网络中的神经元以任意不依赖于输入值的顺序进行更新，则网络最终将达到Boltzmann分布，此时状态向量 s 出现的概率将仅由其能量与所有可能状态向量的能量确定：
在这里插入图片描述

受限的Boltzmann机

在这里插入图片描述

深度学习

**无监督逐层训练（unsupervised layer-wise training）**是多隐层网络训练的有效手段。
其基本思想是：

每次训练一层隐结点，训练时将上一隐层结点的输出作为输入，而本层隐结点的输出作为下一层隐结点的输入，这称为预训练（pre-training）。
在预训练全部完成后，再对整个网络进行微调（fine-tuning）训练。

预训练+微调的做法可视为将大量参数分组，对每组先找到局部看来比较好的设置，然后再基于这些局部较优的结果联合起来进行全局寻优。这样就在利用了模型大量参数所提供的自由度的同时，有效的节省了训练开销。

另一种节省训练开销的策略是权共享（weight sharing），即让一组神经元使用相同的连接权。这个策略在卷积神经网络（Convolutional Neural Network）中发挥了重要作用。

在这里插入图片描述

特征学习

在这里插入图片描述

机器学习笔记（七）神经网络

神经网络

神经网络

神经元模型

感知机与多层网络

多层前馈神经网络（multi-layer feedforward neural networks）

误差逆传播（error BackPropagation，简称BP）算法

累积误差逆传播（accumulated error backpropagation）算法

全局最小与局部极小