深度学习Loss function之Softmax中的矩阵求导 - 代码天地

深度学习Loss function之Softmax中的矩阵求导

其他 2019-03-06 02:01:51 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Gitoo1993/article/details/78221238

最近在重温CS231n的Assignment，采用SGD进行参数更新，在back propagation计算gradient时经常涉及到矩阵运算的的“求导”，在许多代码中该步骤仅需进行一次矩阵乘法，对其实现背后的推导没有进行说明，自己只有照抄死记硬背，但是毕竟只有明白背后的原理才能举一反三，在遇到其他需要对矩阵进行求导的情况时能够自己解决，因此今天我试着推导了一下，并且希望记录下来方便以后查阅：

首先简单介绍下Softmax：

假设在神经网络的最后一层输出为f(N，C)，N表示train data的数目，C表示种类的数量，f[i,j]可以理解为第i个train data在j类的分数，而Softmax将以f为输入，然后计算各个train data属于j类的概率，再计算Loss（一种对Softmax的解释)。Softmax的Loss function为：

引入临时变量p，则某个样例引入的损失为：

可以将P视为样例属于某类的概率。经过简单的求导，可以得到：

此时我们已经可以得到df，但是参数更新需要获得dW，因此将通过back propagation计算dW，由于f=np.dot(X,W)，涉及到了矩阵的乘法，求导并不直观，在这里进行推导下，加深自己的理解：

矩阵乘法的实质是

其中i表示第i个样例，j表示第j类，因此f[i,j]可以理解为第i个样例在第j类的分数。对其进行back propagation：

这是第i个样例引入的，考虑所有样例，则有：

可以看出该式也是矩阵乘法，因此得出dW=np.dot(X.T,df)

恩，从df到dW的back propagation就完成了：)

python代码实现可以参考cs231n的slides

http://cs231n.github.io/neural-networks-case-study/

猜你喜欢

转载自blog.csdn.net/Gitoo1993/article/details/78221238

深度学习Loss function之Softmax中的矩阵求导

深度学习之——损失函数（loss)

Tutorial教程：机器/深度学习中的损失函数(loss function)

深度学习 loss function 和cost function的区别

深度学习（一）—— 损失函数（loss function）的前因后果

【更新中】深度学习各种网络模型中的Loss解析

深度学习系列之Focal Loss个人总结

Paper Reading - Loss系列 - 深度学习中各种常见Loss与组合综述[WIP]

深度学习：剖根问底之softmax和logistics的Loss

机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法

目标检测之loss函数：softmax详细的梯度求导

Derivative of Softmax Loss Function

推荐系统[4.1]：Ranking Loss 函数：度量学习、Siamese 和 triplet 网络、RankNet、pair-wise、List-wise loss以及在深度学习框架中loss设计

【深度学习】一文读懂机器学习常用损失函数（Loss Function）

深度学习基础--loss与激活函数--sigmiod与softmax；对数损失函数与交叉熵代价函数

机器学习中的线性代数之矩阵求导

【深度学习】：超详细的Softmax求导

机器学习之损失函数（Loss Function）

深度学习---之不同loss的变化情况，之有可能的问题

tensorflow深度学习之准确率acc与损失loss可视化画图显示

深度学习中的损失函数总结已经Center Loss函数笔记

深度学习中loss不下降的原因——os.listdir()读取文件无序

深度学习（21）——关于训练过程中loss和acc固若磐石

机器学习中的熵和 loss function

[深度学习从入门到女装]A Novel Focal Tversky loss function with improved Attention U-Net for lesion segmentatio

卷积神经网络系列之softmax loss对输入的求导推导

机器学习数学基础之矩阵求导

机器学习中的矩阵求导的问题

深度学习之Softmax回归

深度学习——矩阵求导详解（上）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)