Pytorch中常用损失函数的数学原理 - 代码天地

Pytorch中常用损失函数的数学原理

数据库 2022-04-15 01:05:40 阅读次数: 0

$x$ 表示输出序列， $y$ 表示目标序列， $\operatorname{rms}$ 表示均方根， $L=\{l_1\cdots l_n\}$ 。

将mini-batch译为小批。

1 L1Loss

$L_1=|x-y|$

2 MSELoss

$L=\operatorname{rms}(L_1)$

3 CrossEntropyLoss

$=\sum_j \frac{y_j}{\sum_i y_i}(-\log\frac{e^{x_j}}{\sum_i e^{x_i}})$

注解：

熵是基于信息量这个概念，信息量被定义为概率分布的对数。例如现有事件空间X，其中 $x\in X$ 发生的概率为 $P (X = x) = p (x)$ ，则对于 $X = x$ 的信息量为 $I(x)=-\log p(x)$ 。

可见概率越大的事件发生，则信息量越小，当 $p (x) = 1$ 时， $x$ 为必然事件，此时信息量为0。例如 $1 + 1 = 2$ 是必然的，那么当我们看到 $1 + 1 = 2$ 的时候，内心毫无波澜；但万一发现 $1 + 1 = 3$ 成立，那信息量太大将导致心态爆炸。

熵则表示系统中信息量总和，信息量越大代表越混乱。简单起见，考虑两点分布，对于事件 $x$ ，其发生的概率为 $p$ ，则不发生的概率为 $1 - p$ ，则其熵为这两种可能信息的期望：

$\begin{aligned} H(x) &= P(x)I(x)+P(\bar x)I(\bar x)\\ &= -p\log p-(1-p)\log(1-p) \end{aligned}$

若取对数的底为 $a$ ，则

$\begin{aligned} H'(p)&=-\ln p-p\frac{1}{p\ln a}+\ln(1-p)-(1-p)\frac{-1}{(1-p)\ln a}\\ &=-\ln p-\frac{1}{\ln a}+\ln(1-p)-(-\frac{1}{\ln a})\\ &=\ln\frac{1-p}{p} \end{aligned}$

则当 $p = 0.5$ 时， $H^{'} (p) = 0, H^{''} (0.5) = - 4 < 0$ ，代表此时有极大值。也就时说，发生与不发生的概率越是接近，则代表熵越大，即不确定性越大。

假设 $x_i\in X$ 为一组随机变量，其发生的概率为 $p_i$ ，则其熵为

$H(X)=\sum -p_i\log p_i,\quad \sum p_i=1$

如果现有一组样本，概率分布为 $q_i$ ，则其对应的信息量为 $log q_i$ 。而我们希望这组样本的概率分布为 $p_i$ 。

对于事件 $x_i$ 而言，样本与目标信息量之差可以衡量样本与目标概率的相似程度；那么对于全体事件 $X$ 来说，这个信息差的期望则可以起到相似性度量的作用，即

$D_{KL}=\sum p_i(\log p_i- \log q_i)$

此即K-L散度，又叫相对熵，其绝对值越小，则代表样本和目标分布越相似。

目标概率分布 $p_i$ 往往是已知的，所以

$D_{KL}=\sum p_i\log p_i- \sum p_i\log q_i$

其取值将取决于第二项，此即交叉熵的来源

$\sum p_i\log q_i$

交叉熵恒大于0，故交叉熵越小，则样本分布越接近于目标分布。

在Pytorch中， $\frac{y_i}{\sum_i y_i}$ 代表第 $i$ 种类别的目标概率； $\frac{e^{x_i}}{\sum_i e^{x_i}}$ 则代表第 $i$ 种类别的输出概率。整理一下正是交叉熵公式。

4 KLDivLoss

即KL散度，详解见3.

5 BCELoss

即二进制交叉熵(Binary cross entropy)。

交叉熵即

$\sum p_i\log q_i$

其中， $p_i, q_i$ 分别表示目标和样本的概率分布。

对于二项分布而言，其交叉熵中的 $q_i$ 可以分为两种：即事件发生与事件不发生，分别表示为 $y, 1 - y$ ，相应地，目标样本的概率可以写为 $\hat y, 1-\hat y$ ：

$-y\ln\hat y-(1-y)\ln(1-\hat y)$

对于批量样本 ${x_i, y_i\}$ ，其样本概率也将不再唯一，可写为 $\hat y_i$ ，从而交叉熵的均值可以表示为

$L_{BSE}=\sum_i-y_i\ln x_i-(1-y_i)\ln(1-x_i)$

例如下表的4组样本

$i$	$y_i$	$x_i$
0	1	0.8
1	0	0.1
2	0	0.1
3	1	0.9

则计算可得 $L_{BSE}=0.53$ 。

6 BCEWithLogits

即在同一个类中封装了BCELoss外加一个Sigmoid层。

$L=\sum_i-y_i\ln\sigma(x_i)-(1-y_i)\ln(1-\sigma(x_i))$

7 MarginRanking

可译为边距排序，其表达式为

$L(x_1,x_2,y)=\max(0,-y\cdot(x_1-x_2)+\operatorname{m})$

$y$ 可取值1或者-1，从而上式变为

$L_1(x_1,x_2)=\max(0,x_2-x_1+\operatorname{m})\\ L_{-1}(x_1,x_2)=\max(0,x_1-x_2+\operatorname{m})$

由于这两种情况呈现出完全相反的两种次序关系，所以只分析 $L_1$ ，则此时损失函数不为0的条件为 $x_2>x_1-\operatorname{m}$ 。

8 HingeEmbedding

Hinge损失也针对二分类的情况，对于标签 $y_n$ ，可以取值为1或者-1，则损失为

$l_n=\left\{\begin{aligned} &x_n,&y_n&=1\\ &\max{0,\Delta-x)n},&y_n&=-1 \end{aligned} \right.$

而总损失可以是 $l_n$ 的均值或和。

9 MultiLabelMargin

即多标签分类损失，是Hinge的多标签扩展，可以表示为

$L(x,y)=\sum_{i,j}\frac{\max(0,1-(x[y_j]-x[i]))}{x.size[0]}$

10 HuberLoss

Huber损失结合了L1和MSE损失的优点，

$l_n=\left\{\begin{aligned} &0.5(x_n-y_n)^2,\quad \text{if} \vert x_n-y_n \vert < \delta\\ &\delta(\vert x_n-y_n \vert-0.5\delta) \end{aligned}\right.$

当 $\delta\to\infty$ 时，即退化为MSELoss。

11 SmoothL1

即平滑版的L1损失，和MSE相比对异常值不敏感。

$l_n=\left\{\begin{aligned} &0.5(x_n-y_n)^2/\beta,\quad \text{if}\quad\vert x_n-y_n \vert < \beta\\ &\vert x_n-y_n \vert-0.5\beta \end{aligned}\right.$

12 SoftMargin

为2分类的logistic损失，通过输入张量 $x$ 和输出张量 $y$ 来构建损失函数

$L(x,y)=\frac{1}{N}\sum_i\log[1+\exp(-x_iy_i)]$

13 MultiLabelSoftMargin

输入 $x$ 的尺寸为 $N\times C$ ，令 $y_i=\pm1$ ，则其损失函数如下

$L(x,y)=-\frac{1}{C}\sum_i y_i\log\frac{1}{1+\exp(-x_i)}+(1-y_i)\log\frac{\exp(-x_i)}{1+\exp(-x_i)}$

14 CosinieEmbedding

即余弦损失。

$L(x,y)=\left\{\begin{aligned} &1-\cos(x_1,x_2),&\text{if}&\quad y=1\\ &\max(0,\cos(x_1,x_2)-M)&\text{if}&\quad y=-1 \end{aligned}\right.$

其中， $M\in(-1,1)$ ，推荐区间为 $(0, 0.5)$ 。

$\cos(x,y)$ 为余弦距离，表达式为

$\cos(x,y)=\frac{\sum_i{x_iy_i}}{\sqrt{\sum_ix_i^2}\sqrt{\sum_iy_i^2}}$

15 MultiMargin

$L(x,y)=\frac{\sum_{i\not=y}\max(0,M-x_y+x_i)^p}{N}$

其中，输入 $x$ 是二维的小批张量(mini-batch tensor)， $y\in(0,N)$ 。

16 TripletMargin

$L(\alpha,\beta,\gamma)=\max\big(\Vert \alpha_i-\beta_i\Vert_p-\Vert\alpha_i-\gamma_i\Vert_p+m,0\big)$

即三元组损失，其中 $\alpha,\beta,\gamma$ 为输入的三个同维度张量。

17 CTC

$L(s)=-\ln\Pi_{(x,z)\in S}P(z|x)=-\sum_{(x,z)\in S}\ln P(z|x)$

设 $x$ 为输入，记 $y_k^t$ 为 $t$ 输出 $k$ 的概率， $\pi_t$ 表示路径 $\pi$ 在 $t$ 时刻的值。若 $y$ 在不同时刻是互相独立的，则输入 $x$ 输出 $\pi$ 路径的概率为

$p(\pi|x)=\prod^T_{t=1}y^t_{\pi_t},\forall\pi\in L'^T$

其中， $L$ 是标签集合， $L'=L\cup\{blank\}$ 。

$z$ 表示最终的标签，则

$p(z|x)=\sum_{\pi\in B^{-1}(z)}p(\pi|x),\quad B(\pi)=z$

则根据损失函数的定义，可计算其递推关系。

18 NLL

负对数似然损失的表达式可以写为

$L=\sum-\log x[y]$

但在pytorch中并未取对数，所以需要在适用NLLLoss之前，进行softmax和对数的运算。

softmax是一种概率归一化方法，定义为

$S(x_i)=\frac{\exp x_i}{\sum_j\exp x_j}$

而pytorch中的LogSoftmax则为

$LS(x_i)=\log\frac{\exp x_i}{\sum_j\exp x_j}$

猜你喜欢

转载自blog.csdn.net/m0_37816922/article/details/124074069

Pytorch中常用损失函数的数学原理

pytorch中常用损失函数总结

pytorch中的CrossEntropyLoss()函数——交叉熵的数学原理及应用

pytorch常用损失函数

一文彻底搞懂 Softmax 函数，数学原理分析和 PyTorch 验证

smoothstep函数背后的数学原理

深度学习最常用的10个激活函数！（数学原理+优缺点）

[Pytorch框架] 2.2 深度学习基础及数学原理

PCA的数学原理

RSA的数学原理

PCA数学原理

GAN的数学原理

AdaBoost数学原理

PAC的数学原理

机器学习中常用损失函数

深度学习中常用损失函数

机器学习中常用的损失函数的整理

推荐系统中常用损失函数

pytorch中常用函数记录

ios中常用的数学函数

机器学习中的数学原理——对数似然函数

PyTorch中常见损失函数的简单解释和使用

直方图匹配的数学原理

（转载）PCA的数学原理

PCA的数学原理(转)

PCA的数学原理（转）

【数学原理】Hessian Matrix

xgboost中的数学原理

PCA的数学原理(强推)！！！！

算法背后的数学原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)