一般地，给定训练数据 $(x_1, y_1), \ldots, (x_m, y_m)$ ，其中 $x_i \in \mathbf{R}^n$ 和 $y_i \in \{0,1\}$ ，权重 $\omega$ 和阈值 $\theta$ 可以通过学习得到，阈值可以看作一个固定输入为-1的”哑结点“。
对所有的权重 $\omega^1,...,\omega^{n+1}$ ，我们可以利用训练数据学习：
$\omega^j\leftarrow \omega^j+\Delta\omega^j,$

$\Delta\omega^j=\eta(y_i-\hat y_i)x_i^j$

其中， $\eta$ 是学习率，从式中可以看出感知机只根据错误的程度调整权重。这里上标j指的是第j个输入神经元。

2.2 前馈神经网络

二层感知机模型只能够处理线性可分的问题，而若想处理非线性可分的问题，则需要多层感知机，也可以称为多层神经网络。其利用BP算法来调整参数。
全连接层（Full Connected Layer）

2.2.1 误差逆传播算法（BackPropagation，BP）

d个属性描述输入特征，l个属性描述输出特征，中间有q个隐层，输出层的阈值用 $\theta_j$ 表示，隐层的阈值用 $\gamma_h$ ，输入层和隐层的连接权值为 $v_{ih}$ ，隐层和输出层的连接权值为 $w_{hj}$ ，如下图所示（图片来源《机器学习》周志华）。
在这里插入图片描述
输入： 训练集 $D=\{(x_1,y_1),...,(x_m,y_m)\},x_i\in \mathbf{R}^d,y_i\in \mathbf{R}^l$ ，学习率 $\eta$ （有时每个层的 $\eta$ 都不同）。
过程：

在(0,1)范围里随机初始化所有权值和阈值
对每个训练样本 $(x_i,y_i),i=1,...,m$
（a）计算当前输出 $\hat y_j^i=sigmoid(\beta_j-\theta_j)$
（b）计算梯度项 $g_j=\hat y_j^i(1-\hat y_j^i)(y_j^i-\hat y_j^i)$ 和 $e_h=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j$
（c）更新权值和阈值 $\Delta w_{hj}=\eta g_jb_h,\Delta \theta_j=-\eta g_j,\Delta v_{ih}=\eta e_hx_i,\Delta \gamma_h=-\eta e_h$
重复2，直到达到停止条件。

输出： 连接权和阈值确定的多层神经网络。

2.2.2 停止条件

将数据分成训练集和验证集，若训练误差降低，而验证集误差增加则停止训练。

2.3 其它网络

RBF网络
ART网络
SOM网络
级联相关网络
elman网络
Boltzmann机

2.4 激活函数

见激活函数文章：点击这里

2.5 dropout

随机删除全连接层中的若干神经元来避免过拟合。

三、卷积神经网络（Convolutional NN）

可以看这篇文章

四、循环神经网络（RNN）

在这里插入图片描述
语音识别，翻译

五、混合神经网络

自动驾驶

李豪呀

发布了60 篇原创文章 · 获赞 32 · 访问量 2万+

私信关注

深度学习笔记（最近更新：2019/10/24）

文章目录

〇、写在前面

一、深度学习概述

二、标准神经网络框架（Standard NN）

2.1 单层感知机模型

2.1.1 PLA算法（Percetron Learning Algorithm）