【傻瓜攻略】深入学习入门之损失函数（六）

其他 2018-06-07 05:17:45 阅读次数: 0

今天开始理，反向传播了……哎……反向传播有点难啊，码字猿正在一点点学习，学到一些写一些，希望看到这个博客的大佬们能指点一二……跪谢

好吧，先从损失函数开始写起。

说到损失函数，最先需要提及的就是交叉熵了。当然也有用均方差来作为损失函数的，这两者之间的区别，或许这张图比较适合解释这个问题。参考网址：https://wenku.baidu.com/view/c93b4dd9b04e852458fb770bf78a6529647d35a7.html

现在先从分类问题开始说起，因为码字猿最近比较热衷于这个分类的神经网络，嘻嘻。

损失函数可以看做是误差部分+正则化部分得到，其中误差部分分类问题一般使用的就是交叉熵。

1、交叉熵

关于分类问题的损失函数，究其根源则是需要回归到熵的概念。我们可以把分类问题看做是概率分布问题。

这样，在概率问题里面有一个概念叫做KLD，即KL距离，这个是一种用于量化两种概率pq之间差异的方式，又可以称为相对熵，是度量一个分布近似另一个分布时损失的信息。

其中KLD表达为：，，差异越大则相对熵越大，差异越小则相对熵越小。我们一般把q作为作为错误分布，把p作为真实分布，此时D(P||Q)代表的就是预计的分布P于真实分布Q之间的相对差值。

由于H(P)已定，是一个常量。而H(P,Q)是根据Q分布而改变的。当Q越接近P时，H(P,Q)越小，所以，H(P,Q)可以作为神经网络的损失函数。

在概率论中，H(P,Q)称为交叉熵，，代表使用预计分布Q来表示真实分布P的平均编码长度，可以作为分类问题的损失函数。神经网络的反向传播的误差就是交叉熵的值，然后通过优化器逐步减少交叉熵，直到达到交叉熵最小的状态，此时，该神经网络基本能准确分类，因为其神经网络所代表的function可以很好地接近真实的概率分布。

另一种解释，则是从logistic函数的最大似然估计方面来进行解释的。

求交叉熵的最小值，也等效于求最大似然估计。

最大似然估计是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值(模型已知，参数未知）

在已知结果为logistic函数分布时，得到似然函数（估计函数）。参考网址：https://blog.csdn.net/u014403897/article/details/45871203

对L求log得：

上述函数就是H(P,Q)的值的相反数，正好就是该行数的交叉熵。

在进行求导的：

所以在进行梯度下降法进行数据更新的时候，所用的迭代公式为：

参考网址：https://blog.csdn.net/qq547276542/article/details/77980042

参考网址：https://blog.csdn.net/heyongluoyao8/article/details/52462400

1.2 gold standard ，0-1损失函数

可以看出，该损失函数的意义就是，当预测错误时，损失函数值为1，预测正确时，损失函数值为0。该损失函数不考虑预测值和真实值的误差程度，也就是只要预测错误，预测错误差一点和差很多是一样的。

1.3 perceptron Loss 感知损失，绝对值损失函数

在感知算法（PLA）中取t=0.5。其中t是一个超参数阈值。

1.4 Hinge Loss 折叶损失

与支持向量机(SVM)息息相关，用于“最大边缘”分类。对于预期输出t =±1和分类器得分y，预测y的铰链损失定义为

表示如果分类正确，损失是0，否则损失就是.

最初SVM优化函数如下：

后来将约束项进行变形，则为：则损失函数可进一步写为：

因此，SVM的损失函数可以看做是L2正则项和折叶损失之和。

1.5 均方差损失

一般用于线性回归的神经网络。

1.6 指数损失函数

。这是标准式，其中Adaboost损失函数为：

应用于boost算法，常见于Adaboost算法中。

1.7 对数损失函数

逻辑回归中，采用的则是对数损失函数。如果损失函数越小，表示模型越好，但容易发生过拟合状况。

下面是一些损失函数的图像：

猜你喜欢

转载自blog.csdn.net/lyy_sha/article/details/80448424

【傻瓜攻略】深入学习入门之损失函数（六）

【傻瓜攻略】深入学习入门之激活函数（四）

【傻瓜攻略】深入学习入门之激活函数（三）

【傻瓜攻略】深入学习入门之优化算法（八）

【傻瓜攻略】深入学习入门之正则化（七）

【傻瓜攻略】深入学习入门之池化层及激活函数（二）

【傻瓜攻略】深入学习入门之卷积层以及大体框架（一）

【傻瓜攻略】深入学习入门之全连接层以及分类（五）

pytorch深入学习(六)

JavaScript深入学习（六）Ajax技术

DL之AlexNet：AlexNet算法的架构详解、损失函数、网络训练和学习之详细攻略

openstack入门至深入学习

MySQL索引从入门到深入学习

【傻瓜攻略】深度学习之海森矩阵（九）

深入学习react中的setState 函数

深入学习javascript函数式编程

深入学习c++--lambda函数

spring深入学习（六） IOC 之解析 bean 标签：开启解析进程

hadoop深入学习之SequenceFile

深入学习Java之LinkedList

深入学习Java之Vector

深入学习Java之PriorityQueue

JavaScript 深入学习之Array

深入学习JavaScript之对象

深入学习JavaScript之闭包

深入学习JavaScript之提升

Nginx深入学习之配置详解

深入学习jquery源码之noConflict()

深入学习jquery源码之is()与not()

深入学习jquery源码之extend()

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)