【李宏毅机器学习笔记】7、反向传播（Backpropagation）

其他 2020-02-17 10:41:38 阅读次数: 0

【李宏毅机器学习笔记】1、回归问题（Regression）

【李宏毅机器学习笔记】2、error产生自哪里？

【李宏毅机器学习笔记】3、gradient descent

【李宏毅机器学习笔记】4、Classification

【李宏毅机器学习笔记】5、Logistic Regression

【李宏毅机器学习笔记】6、简短介绍Deep Learning

------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址：https://www.bilibili.com/video/av10590361?p=13

课件地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

-------------------------------------------------------------------------------------------------------

使用反向传播（Backpropagation）原因

经过前面几篇笔记的介绍，知道可以用gradient descent来更新参数，使Loss Function最小化。

但是面对Neural Network可能上百万的参数，做gradient descent会很困难。所以需要引入反向传播（Backpropagation）使gradient descent 做得更有效率一点。

链式法则（Chain Rule）

反向传播（Backpropagation）就用到链式法则（Chain Rule）的知识，没有涉及其他高深的知识。

反向传播（Backpropagation）

$C^n$ 是估测出来的y和target值y\hat之间的距离，Loss Function则是所有 $C^n$ 的累加。

对Loss Function求w的偏微分结果如图所示，等于。接下来就主要讲怎么解这个偏微分。

为方便讲解，取网络中的红色三角形标识的区域进一步讲解。

以图中的部分网络为例，根据链式法则可以知道，偏微分。

计算的过程叫做Forward pass，因为这一项是从网络由前往后计算得出的（等下就知道为什么是由前往后）。

计算的过程叫做Backward pass，因为这一项是从网络由后往前计算得出的（等下就知道为什么是由后往前）。

Forward pass

Forward pass就是计算。以图中的例子，其实可以知道，这个偏微分的结果是可以口算的。

它都会等于weight前面的输入 x1，x2 。

举个更具体的例子，如图，每一个都会等于前面weight的输入值。

Backward pass

就不像前面Forward pass那么简单，因为 z 后面还要经过很多过程才能得到 C 。

但是不管那么多，先把写成。

由于 z 通过sigmoid函数得到 a，所以代表 sigmoid函数的微分。

然后还剩下这一项怎么算呢？

使用链式法则可以写成如图所示。

由于现在不知道网络后面又有怎样的过程，所以有两项是我们现在还不知道的。

这两项的计算方法等下再讲，现在先假设我们知道这两项的值，这样就能算出的值，如下

这个就是的结果。

把Backward pass的过程用另一种方式展现出来，如图所示，更能体现Backward pass由后往前的特点。

其中是一个常数，因为在Forward pass的过程就已经算出 z ，所以在z算出来的情况下，再经过sigmoid函数也仍然是一个固定的值。

所以在Backward pass由后往前的过程中，在三角形那里，做的运算并不是通过一个非线性函数，而是直接乘上一个常数。

刚才为了简便，先假设了，这两项未知的值是已知，然后就能算出。

下面来具体讲下如何计算那两项的结果。

第一种情况：后面接的就已经是Output Layers

那很直接，，的计算结果就如图所示。

第二种情况：后面不是Output Layers，还有很多层

其实原理和前面例子的计算一样。

z对C的微分，取决于 z 后一层 的 z'对C的微分 和 z''对C的微分。

所以，如果 z' 和 z'' 后面还有很多层，那就一直往后推下去。直到最后一层，这时计算方法就如刚才的第一种情况那样可以直接算出来。然后再反推回来，知道最后一层就可以求倒数第二层，知道倒数第二层又可以求倒数第三层……

按刚才的方法来看，感觉挺复杂的。为了算第一层要算后面的每一层直到output layer，再反推回第一层。

所以为了使计算更有效率，就把刚才的顺序颠倒过来，直接从output layer开始算起，这样就发现每一层都能直接秒算。

以上图为例子，本来为了算出，需要先算出和，……直到最后一层。

但现在从output layer开始算，只要算出，，就能秒算出前面的，立刻变得有效率了。

总结

由前往后，做Forward Pass，算出。
由后往前，做Backward Pass，算出。
两者相乘就是最后的结果。

qqqeeevvv

发布了23 篇原创文章 · 获赞 36 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/ACL_lihan/article/details/104351378

【李宏毅机器学习笔记】7、反向传播（Backpropagation）

李宏毅机器学习笔记-7 反向传播算法（Backpropagation）

[李宏毅-机器学习]反向传播Backpropagation

7、【李宏毅机器学习（2017）】Backpropagation（反向传播算法）

李宏毅机器学习——学习笔记（7） Backpropagation and keras

李宏毅机器学习笔记4：Brief Introduction of Deep Learning、Backpropagation(后向传播算法)

李宏毅机器学习 P14 Backpropagation 笔记

台大李宏毅-- 反向传播算法 Backpropagation

李宏毅机器学习笔记(7)

李宏毅机器学习课程笔记3：Backpropagation、"Hello world" of Deep Learning、Tips for Training DNN

神经网络反向传播Backpropagation（李弘毅机器学习）

李宏毅深度学习_Backpropagation

李宏毅机器学习-学习笔记

【ML】李宏毅机器学习笔记

李宏毅机器学习笔记

李宏毅机器学习笔记(5)

李宏毅机器学习笔记（4）

李宏毅机器学习笔记（3）

李宏毅机器学习笔记（2）

李宏毅机器学习笔记（1）

李宏毅机器学习笔记(11)

李宏毅机器学习笔记(10)

李宏毅机器学习笔记(8)

李宏毅机器学习笔记（6）

李宏毅机器学习笔记(18)

李宏毅机器学习笔记(17)

李宏毅机器学习笔记(16)

李宏毅机器学习笔记(15)

李宏毅机器学习笔记(14)

李宏毅机器学习笔记(12)

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)