关于batch norm

BatchNorm大家都知道,但是最近实验发现,这玩意的影响比想象大得多。比如说有人发现TabNet的实验,如果BatchNorm实现错了,整个训练最后就会崩。

这方面有两个资料。Four Things Everyone Should Know to Improve Batch Normalization相当好玩,实现起来不难。

如果实现都不愿意实现,那么恭喜你这个repo帮你做好了。

最后,实现normalization和dropout到底谁先谁后一直打得你死我活。Rethinking the Usage of Batch Normalization and Dropout in the Training of Deep Neural Networks算是接近于一个结论吧~

总之一大堆东西,都可以试。

猜你喜欢

转载自blog.csdn.net/weixin_42812353/article/details/112093207