Softmax层输出&梯度推导及Python实现 - 代码天地

Softmax层输出&梯度推导及Python实现

其他 2020-01-25 10:49:33 阅读次数: 0

Softmax层输出&梯度推导及Python实现

详细代码在这里，存在于Layer.py中的Softmax类里面

推导

~~太长不看~~ 下面有结论及代码
在这里插入图片描述

结论

约定：Input = I 输入，Output = O 输出

Softmax层的前向传播非常简单，就是输入向量的每个分量取指数，再除以所有分量的指数和即可
反向传播需要计算输出向量对输入向量的导数，输出向量i分量（Oi）对输入向量的分量j（Ij）的导数分为两种情况：
1. i=j 时，其值等于 Oi * (1 - Oi)
2. i≠j 时，其值等于 -1 * Oi * Ij
整个输出向量O，欲求O对于 Ii 的导数，必须依次计算 O1，O2， O3 …On 对 Ii的导数，再将他们加和，作为 O 对 Ii 的导数

代码

# Forward propagation
# param x : last layer's output
# 前向传播
# x 是当前层的输入
def FP(self, x):
    self.input = x.copy()
    self.expi = np.exp(self.input)
    self.sum = np.sum(self.expi)
    self.output = self.expi / self.sum
    self.next_layer.FP(x=self.output)

# Back propagation
# param gradient : last layer's gradient
# param lr       : learning rate
# 反向传播，gradient是当前层输出对损失函数的梯度， lr是学习率
def BP(self, gradient, lr):
    self.gradient = gradient.copy()
    self.tp = self.expi/self.sum
    self.last_layer_gradient = np.zeros(shape=self.input_shape, dtype=np.float64)

    for i in range(self.input_shape[0]):
        # gradient for Input[i]
        # 输入向量 Input 的第 i 个位置的梯度
        self.gradient_for_Ii = np.zeros(shape=self.input_shape, dtype=np.float64)

        for j in range(self.input_shape[0]):
            if i == j:
                self.gradient_for_Ii[j] = self.output[i]*(1 - self.output[i])
            else:
                self.gradient_for_Ii[j] = -1 * self.output[i] * self.output[j]

        self.last_layer_gradient[i] = np.sum(self.gradient_for_Ii * self.gradient)

    self.last_layer.BP(gradient=self.last_layer_gradient, lr=lr)

发布了49 篇原创文章 · 获赞 1 · 访问量 710

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44176696/article/details/104076598

Softmax层输出&梯度推导及Python实现

Softmax输出层损失函数及偏导数

softmax与交叉墒层的实现原理以及梯度计算

SoftMax实现多分类(不含隐藏层)

Caffe Softmax 层的实现原理【细节补充】

caffe Softmax层TensorRT IPlugin代码实现

BP算法推导-softmax层+交叉熵(logloss)

softmax_loss梯度推导

softmax 损失函数与梯度推导

Softmax Cross Entropy 梯度推导

softmax层

caffe中五种层的实现与参数配置（4）------softmax层

Softmax分类和两层神经网络以及反向传播的代码推导

神经网络第三篇：输出层及softmax函数

关于网络结构输出层加了softmax后，loss训练不下降的问题

tensorflow 12：双隐层+softmax回归实现mnist图片识别之二

tensorflow 11：双隐层+softmax回归实现mnist图片识别

【深度学习】4-3 误差反向传播法 - Affine/Softmax层的实现

层序softmax解释

softmax层解析

softmax层的使用

【Softmax】操作对象（以模型最后一层生成的特征图进行softmax后得到的输出结果验证进行验证）

LR进阶之softmax regression（含具体梯度推导）

多分类器softmax——绝对简单易懂的梯度推导

交叉熵的反向传播梯度推导（使用softmax激活函数）

softmax 损失函数以及梯度推导计算

bp反向传播+3层全连接神经网络+softmax交叉熵损失+代码实现详解

softmax实现

python softmax

DL之DNN：利用numpy自定义三层结构+softmax函数建立3层完整神经网络全部代码实现——daiding

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)