深度学习笔记(最近更新:2019/10/24)

〇、写在前面

参考资料:

  1. 网易云课堂吴恩达深度学习
  2. 《深度学习》花书
  3. 深度学习应用开发,浙江大学城市学院,网易云课堂

一、深度学习概述

前驱知识:高等数学/数学分析、线性代数、概率论、机器学习理论,编程基础。

二、标准神经网络框架(Standard NN)

用途:预测,广告ctr

2.1 单层感知机模型

M-P神经元模型
在这里插入图片描述
把这样的神经元按层次结构连接起来就成了神经网络。

下图为两个输入神经元的感知机网络结构
在这里插入图片描述
弊端是只能处理线性问题

2.1.1 PLA算法(Percetron Learning Algorithm)

一般地,给定训练数据 ( x 1 , y 1 ) , , ( x m , y m ) (x_1, y_1), \ldots, (x_m, y_m) ,其中 x i R n x_i \in \mathbf{R}^n y i { 0 , 1 } y_i \in \{0,1\} ,权重 ω \omega 和阈值 θ \theta 可以通过学习得到,阈值可以看作一个固定输入为-1的”哑结点“。
对所有的权重 ω 1 , . . . , ω n + 1 \omega^1,...,\omega^{n+1} ,我们可以利用训练数据学习:
ω j ω j + Δ ω j , \omega^j\leftarrow \omega^j+\Delta\omega^j,

Δ ω j = η ( y i y ^ i ) x i j \Delta\omega^j=\eta(y_i-\hat y_i)x_i^j

其中, η \eta 是学习率,从式中可以看出感知机只根据错误的程度调整权重。这里上标j指的是第j个输入神经元。

2.2 前馈神经网络

二层感知机模型只能够处理线性可分的问题,而若想处理非线性可分的问题,则需要多层感知机,也可以称为多层神经网络。其利用BP算法来调整参数。
全连接层(Full Connected Layer)

2.2.1 误差逆传播算法(BackPropagation,BP)

d个属性描述输入特征,l个属性描述输出特征,中间有q个隐层,输出层的阈值用 θ j \theta_j 表示,隐层的阈值用 γ h \gamma_h ,输入层和隐层的连接权值为 v i h v_{ih} ,隐层和输出层的连接权值为 w h j w_{hj} ,如下图所示(图片来源《机器学习》周志华)。
在这里插入图片描述
输入: 训练集 D = { ( x 1 , y 1 ) , . . . , ( x m , y m ) } , x i R d , y i R l D=\{(x_1,y_1),...,(x_m,y_m)\},x_i\in \mathbf{R}^d,y_i\in \mathbf{R}^l ,学习率 η \eta (有时每个层的 η \eta 都不同)。
过程:

  1. 在(0,1)范围里随机初始化所有权值和阈值
  2. 对每个训练样本 ( x i , y i ) , i = 1 , . . . , m (x_i,y_i),i=1,...,m
    (a)计算当前输出 y ^ j i = s i g m o i d ( β j θ j ) \hat y_j^i=sigmoid(\beta_j-\theta_j)
    (b)计算梯度项 g j = y ^ j i ( 1 y ^ j i ) ( y j i y ^ j i ) g_j=\hat y_j^i(1-\hat y_j^i)(y_j^i-\hat y_j^i) e h = b h ( 1 b h ) j = 1 l w h j g j e_h=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j
    (c)更新权值和阈值 Δ w h j = η g j b h , Δ θ j = η g j , Δ v i h = η e h x i , Δ γ h = η e h \Delta w_{hj}=\eta g_jb_h,\Delta \theta_j=-\eta g_j,\Delta v_{ih}=\eta e_hx_i,\Delta \gamma_h=-\eta e_h
  3. 重复2,直到达到停止条件。

输出: 连接权和阈值确定的多层神经网络。

2.2.2 停止条件

将数据分成训练集和验证集,若训练误差降低,而验证集误差增加则停止训练。

2.3 其它网络

RBF网络
ART网络
SOM网络
级联相关网络
elman网络
Boltzmann机

2.4 激活函数

见激活函数文章:点击这里

2.5 dropout

随机删除全连接层中的若干神经元来避免过拟合

三、卷积神经网络(Convolutional NN)

可以看这篇文章

四、循环神经网络(RNN)

在这里插入图片描述
语音识别,翻译

五、混合神经网络

自动驾驶

发布了60 篇原创文章 · 获赞 32 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_42297855/article/details/102292321
今日推荐