均值为均值的期望（均值的均值）
方差为方差的无偏估计（为什么分母要m-1，这个是概率论之中的内容 https://blog.csdn.net/qq_16587307/article/details/81328773 粗略的理解为，均值也是一个有偏的量，其中算出的均值也是有方差在里面的，所以方差m-1就要大一些）。

所以测试阶段使用的公式为：均值与标准差是从训练过程中固定下来的。

3.3 BN一般用在网络哪个部分？

激活层前还是激活层后呢？先BN，后激活。

因为我们的目的，就是为了通过BN让网络的传递更顺畅。而加入BN之后，feature更加容易被映射到激活函数的线性区，因此梯度可以更好的传递。因此，先BN，后激活。

z=g(Wu+b)是常规的激活函数，g是激活函数，z是输出。

z=g(BN(Wu+b))偏置会被归一化处理，所以加不加b经过BN之后是一样的映射，简化为下面这样：

z=g(BN(Wu))

3.4 手推一下BN的公式？

            m = K.mean(X, axis=-1, keepdims=True)#计算均值
            std = K.std(X, axis=-1, keepdims=True)#计算标准差
            X_normed = (X - m) / (std + self.epsilon)#归一化
            out = self.gamma * X_normed + self.beta#重构变换

上面四个公式含义分别为：

算出mini-batch的均值
算出mini-batch的方差
将层的输入通过均值方差转变为标准分布
将标准分布通过均值与方差线性变换为均值beta，标准差gama的分布

注意ε为常数，用于维持mini-batch的稳定

四、损失函数

https://blog.csdn.net/tsyccnh/article/details/79163834

4.1 信息熵

信息量等于概率的负对数

熵就是平均信息量，即信息量的概率加权：

比如：二项分布的信息熵，需要求和的就是p和1-p的情况：

4.1 相对熵(KL散度)

用相对熵的概念可以衡量两个分布的接近情况：

P往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比如[0.7,0.2,0.1]

这个反映了一个增量，即q的分布与p的分布接近的程度。即p概率分布下q的熵，与p概率分布下p的熵，相当于H(Q)-H(P) ,两个熵进行相减，就得出了KL散度。KL散度越小，则表明两者越接近。

KL散度是一种信息增量，只有当预测的Q分布完全等同于真实的P分布的时候，KL散度才为0，最小化KL散度就能够尽可能的使Q分布接近于P分布。

4.2 交叉熵cross entropy

对KL散度进行变形：

得到前部分是真实分布P的熵，后部分就是交叉熵：

作为loss的时候，前面真实的P分布的熵可以忽略掉，直接用交叉熵作为loss。

4.3 单分类与多分类交叉熵

单分类交叉熵

单分类问题即每个样本只有一个分类数。交叉熵在单分类问题上基本是标配的方法。

y为label，y^为网络预测的概率。每个size为m，标签数量为n的batch的loss为：

多分类交叉熵

多分类问题即标签之间的可能同时出现，因此多分类问题的交叉熵是n个二项分布的交叉熵的和。

每个n分类的batch的loss为：

n为分类数量，即交叉熵需要统计每个类上的正样本和负样本

m为mini-batch的大小

代码实现

cross_entropy=0
for i in range(batch_size)
    for n in range(n_classes)
        cross_entropy+=-label*log(predict)
print(cross_entropy)

https://blog.csdn.net/flyfish1986/article/details/79202397

邢翔瑞

发布了210 篇原创文章 · 获赞 584 · 访问量 30万+

他的留言板关注

机器学习算法基础问题(二)类别不均|尺寸及感受野|Batch Norm|损失函数

一、不均衡类别问题

1.1 问题

1.2 解决类别不均方法

重新采样

re-weight

1.3 focal loss

常规交叉熵

focal loss

平衡因子alpha

二、featuremap尺寸与感受野尺寸

2.1 感受野的运算

2.2 featuremap尺寸

三、BN(Batch normalization)

3.1 BN可以缓解过拟合吗？

3.2 BN如何获得参数？