神经网络多分类中为什么用softmax函数归一化而不用其它归一化方法 - 代码天地

神经网络多分类中为什么用softmax函数归一化而不用其它归一化方法

其他 2018-10-31 16:11:40 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Flying_sfeng/article/details/80927098

直观的解释是为了平衡概率分布，同时避免出现概率为0的情况（使得模型可以不用再做平滑化处理）。
从反向传播的角度推导一波：
softmax函数的形式为：

P (y = i) = \frac{e^{W_{i} X}}{\sum_{j = 1}^{N} e^{W_{j} X}}

$P(y=i)={e^{W_iX}\over \sum_{j=1}^Ne^{W_jX}}$
目标函数为：

L = - \sum_{k} t_{k} l o g P (y = k) (t_{k} 表 示 目 标 类 为 1 ， 其 它 类 为 0)

$L=-\sum_kt_k logP(y=k) \ \ (t_k表示目标类为1，其它类为0)$
令

V_{i} = W_{i} X

$V_i=W_iX$ ，则：

\begin{aligned} (452) & \frac{\partial L}{\partial V_{i}} & = - t_{k} \frac{1}{P (y = k)} \cdot \frac{\partial P (y = k)}{\partial V_{i}} \\ (453) & = - t_{k} \frac{1}{P (y = k)} \cdot \frac{e^{W_{i} X} \cdot \sum_{j = 1}^{N} e^{W_{j} X} - e^{W_{i} X} \cdot e^{W_{i} X}}{(\sum_{j = 1}^{N} e^{W_{j} X})^{2}} \\ (454) & = - t_{k} \frac{1}{P (y = k)} \cdot [P (y = k) - (P (y = k))^{2}] \\ (455) & = - t_{k} * (1 - P (y = k)) \end{aligned}

$\begin{align} {\partial L\over \partial V_i} & = -t_k{1\over P(y=k)}\cdot {\partial P(y=k)\over \partial V_i} \\ & = -t_k{1\over P(y=k)}\cdot {e^{W_iX}\cdot \sum_{j=1}^Ne^{W_jX}-e^{W_iX}\cdot e^{W_iX}\over (\sum_{j=1}^Ne^{W_jX})^2} \\ & = -t_k{1\over P(y=k)} \cdot [P(y=k)-(P(y=k))^2]\\ & = -t_k*(1-P(y=k)) \end{align}$

由上式第一个等式可以知道，当我们使用一般的归一化方法时（如min_max归一化），当 $P(y=k)$ 很小时，梯度将变得很大（梯度爆炸），而softmax函数把它约去了，因此不会出现这个问题。
参考：多类分类下为什么用softmax而不是用其他归一化方法?
如何理解softmax（柔性最大），为什么不用别的归一化的函数？

猜你喜欢

转载自blog.csdn.net/Flying_sfeng/article/details/80927098

神经网络多分类中为什么用softmax函数归一化而不用其它归一化方法

【转】多类分类下为什么用softmax而不是用其他归一化方法?

神经网络中的归一化

sigmoid二分类函数，softmax归一化多分类函数损失函数

神经网络基本讲解（神经网络、激活函数、归一化与批归一化、dropout）

softmax 归一化

为什么要数据归一化和归一化方法为什么要数据归一化和归一化方法

神经网络的归一化（batch normalization）

神经网络--CNN的池化、激活函数、批处理归一化Batch Normalization

实战深度神经网络（包含批归一化、激活函数、dropout的实战）

神经网络模型中常用的归一化方法了解

Python 基于卷积神经网络（textCnn）对药品或疾病分类（适用于疾病归一化和药品归一化）

深度学习技巧应用12-神经网络训练中批归一化的应用

Tutorial教程：深度神经网络中使用的不同标准化/归一化技术-局部响应归一化vs批归一化

R神经网络代码（对数据有归一化和反归一化）

softmax归一化之前为什么要减去max

归一化指数函数：softmax loss function

神经网络的归一化（Normalization）和正则化（Regularization）总结

【卷积神经网络】13、中间层网络的参数归一化方法 | BN / LN / IN / GN

OpenCV中的归一化函数normalize()

机器学习中归一化方法

04-07 Tensorflow2.0深度神经网络+批归一化+激活函数selu+Dropout

为什么要做特征归一化/标准化？

为什么要做特征的归一化/标准化？

常用归一化方法

记录“归一化”方法

数据归一化的方法

归一化方法总结

第六讲-训练神经网络上--课时15--批量归一化

cs231 卷积神经网络Convolutional Networks群组归一化GN( Group Normalization)

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)