Distilling the Knowledge in a Neural Network

Structure

在这里插入图片描述
Softmax 前:logits( z i z_i zi),后:probability( q i q_i qi
q i = e x p ( z i / T ) ∑ j e x p ( z j / T ) q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)} qi=jexp(zj/T)exp(zi/T)

交叉熵梯度函数:
Fun. 1
Fun. 2
Fun. 1泰勒展开得Fun. 2
若:logits 均值为0,及 ∑ j z j = ∑ j v j = 0 \sum_jz_j=\sum_jv_j=0 jzj=jvj=0
则得:在这里插入图片描述

T >= 1
T很大时:求 1 2 ( z i − v i ) 2 \frac{1}{2(z_i-v_i)^2} 2(zivi)21最小
T小时:更不关注于负logits(算噪声),但负logits中可能包含有用信息
原文:在这里插入图片描述

Experiment

Subject

MNIST 和 语音识别

Structure

MNIST

单Teacher: 两层FC,每层1200个神经元,后面加Dropout。错67个
单Student: 两层FC,每层800个神经元,无Dropout。错146个
合:错74个。T=20

有意思的东西:
1、Student训练时去掉“3”的数据集,错206,其中有133个是对“3”的辨识错误(测试集中“3”有1010个)。原因是bias过低,增加bias,错109个,其中14个是“3”。
2、训练集只有“7”、“8”时,错误率47.3%,bias降低优化,错误率降至13.2%。

问题:手动调节bias有什么意义?有什么办法可以自动调节bias吗,若有,可以解决数据丢失问题

语音识别

暂时用不到,下次整理

Reference

参考博客1
参考博客2
论文

猜你喜欢

转载自blog.csdn.net/Goodlick/article/details/108315300