Deep Learning【第二章】

物联网 2022-08-14 04:30:28 阅读次数: 0

文章目录

机器学习任务攻略
类神经网络训练不起来怎么办

机器学习任务攻略

在这里插入图片描述
注意： 当 loss 在 training data 上就很大时，如果增加模型复杂度，但是 loss 并没有减少，大概率是 optimization 有问题。

解决 $o v er f i tt in g$ 的几种常见办法：

减少模型复杂度，选择更简单更平滑的模型
增加训练集数据
减少参数或者共享参数
减少 feature
Early stopping
Regularization
Dropout

如何尽可能选出在未知的 testing data 上面表现更好的 model
可以加入验证集来选更好的 model，通常采用 N 折交叉验证来分割数据集并进行验证。

类神经网络训练不起来怎么办

optimization Fails because…

Local minima（局部最小值）与 saddle point（鞍点）

梯度为 0

在这里插入图片描述

如何判断在 $θ = θ^{'}$ Loss function 形状：通过泰勒级数展开描述。

在这里插入图片描述

当满足 critical point 时，grdient 为 0

在这里插入图片描述

在 $θ$ 为其他值时，如果都大于 $L (θ^{'})$ 时，说明此处是局部最小值点…
但是我们不可能带所有 $v$ 值，所以可以转为如下判断：
满足 $v^THv > 0$ 的 $H$ (hessian) 矩阵叫做 positive definite。
positive definite 的特性：所有的特征值都是正的。

在这里插入图片描述

例子：

在这里插入图片描述

当 critical point 是 saddle point（鞍点）时，可以通过 Hessian 来帮我们判断 update 的方向。

找特征值是负的对应的特征向量的方向，朝着此方向前进，就会使梯度减小。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

一个点代表一个 network。
纵轴代表训练停下时，Loss 的大小。
横轴代表训练停下时，特征值为正的特征值占所有特征值的比率。

所以在高维空间中大多数都是鞍点而不是局部最小值。

batch 与 momentum

batch

在这里插入图片描述

为什么要用 batch：每个 batch 都可以更新一波参数

在这里插入图片描述

有并行运算时，batch size 大的可能训练一个 epoch 会更快。

在这里插入图片描述

但是在 batch size 小的 noise 对 optimization 可能有更好的结果。

在这里插入图片描述
小的 batch 对 training 更好可能的解释：

每次 batch 时对应的 loss function 有差异，对应的梯度有差异。

在这里插入图片描述
小 batch size 对 testing 更好：

在这里插入图片描述
Local minima 也有好坏之分，平原上的 Local minima 更好，峡谷中的 Local minima 更差，而大的 batch size 会更倾向于峡谷中的 Local minima。

因为小的 batch size 的 update 方向具有随机性，其更容易跳出 Sharp Minima。

在这里插入图片描述

Momentum

在这里插入图片描述

普通的 grident descent 在 update 时只会走梯度的反方向

在这里插入图片描述

加上 Momentum 后，update 时，会走梯度的此时梯度的反方向以及 momentum（前一步所走的方向）的和的反向。

在这里插入图片描述

而 momentum 就是之前所有的前进方向的和。

在这里插入图片描述

自动调整学习率 (Learning Rate)

当 Loss 不下降的时候，不一定卡到 critical point 处（很难走到 critical point）。

在这里插入图片描述

当 learning rate 为定植时，可能会出现上图两个问题（震荡与先正常然后走的特别慢）

我们要改一下 gradient descend 的式子，使得其在陡峭的地方 learning rate 小，平缓的地方 learning rate 大。

在这里插入图片描述

Adagrad

相当于如果 grident 大的话，σ 就大，σ 大的话，learning rate 就小了。

在这里插入图片描述

RMSProp

引入 α 来表示新算出来的 grident 所占的比重。

在这里插入图片描述

Adam: RMSProp + Momentum

在这里插入图片描述

引入 Adagrad

在这里插入图片描述
η 设置为一个随时间变化的函数，随时间的增加 η (learning rate) 越来越小。

在这里插入图片描述

Warm up (黑科技)

在这里插入图片描述

momentus 是为了增加历史运动的惯性，RMS 是为了缓和步伐的大小，变得更平缓

在这里插入图片描述

损失函数 (Loss)

在这里插入图片描述

当只有两个 class 时，一般采用 sigmoid ( 此时 sigmoid 跟 softmax 的作用等价)，而两个以上则用 softmax。

minimizing cross-entropy 就相当于 maximizing linklihood

在这里插入图片描述

用 Mean Square 处理 classify 问题，可能会卡住在 critical point。

在这里插入图片描述

·

猜你喜欢

转载自blog.csdn.net/qq_46456049/article/details/126175658

Deep Learning【第二章】

Deep Learning - 第二章：线性代数

《Deep Learning》第二章线性代数笔记

Deep Learning with Python第二章（翻译）

Deep Learning with Python第二章（翻译）5

Deep Learning with Python第二章（翻译）6

Deep Learning with Python第二章（翻译）7未完

TensorFlow官方教程《Neural Networks and Deep Learning》译（第二章）

neural networks and deep learning第二章读书笔记

Deep Learning

Deep learning 第二門課程作業 tensorflow

Neural Network and Deep Learning 第二周笔记

Neural Networks and Deep Learning 第二周 Logistic Regression

Udacity Deep Learning实战（二）

Deep Learning - Machine Learning

Deep Learning-Deep feedforward network

「Deep Learning」Note on Deep Video Portraits

Deep learning 1.3 作业

Important persons in deep learning

Deep Learning 1.1

(花书) Deep Learning

Deep Learning综述[下]

Deep Learning 简介

deep Learning 合集

「Deep Learning」Note on Swish

「Deep Learning」Note on NADM

「Deep Learning」Note on ADADELTA

「Deep Learning」Note on Adam

「Deep Learning」Note on RMSprop

「Deep Learning」Note on ReLU

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)