Structure
Softmax 前:logits( z i z_i zi),后:probability( q i q_i qi)
q i = e x p ( z i / T ) ∑ j e x p ( z j / T ) q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)} qi=∑jexp(zj/T)exp(zi/T)
交叉熵梯度函数:
Fun. 1泰勒展开得Fun. 2
若:logits 均值为0,及 ∑ j z j = ∑ j v j = 0 \sum_jz_j=\sum_jv_j=0 ∑jzj=∑jvj=0
则得:
T >= 1
T很大时:求 1 2 ( z i − v i ) 2 \frac{1}{2(z_i-v_i)^2} 2(zi−vi)21最小
T小时:更不关注于负logits(算噪声),但负logits中可能包含有用信息
原文:
Experiment
Subject
MNIST 和 语音识别
Structure
MNIST
单Teacher: 两层FC,每层1200个神经元,后面加Dropout。错67个
单Student: 两层FC,每层800个神经元,无Dropout。错146个
合:错74个。T=20
有意思的东西:
1、Student训练时去掉“3”的数据集,错206,其中有133个是对“3”的辨识错误(测试集中“3”有1010个)。原因是bias过低,增加bias,错109个,其中14个是“3”。
2、训练集只有“7”、“8”时,错误率47.3%,bias降低优化,错误率降至13.2%。
问题:手动调节bias有什么意义?有什么办法可以自动调节bias吗,若有,可以解决数据丢失问题
语音识别
暂时用不到,下次整理