Neural Networks and Deep Learning 整理(三)

公式太麻烦,没写公式。

交叉熵函数作为代价函数

        用求导推理说明了这样比二次代价函数(方差的形式)要更好一些,即导数和(y-a)成正比。

        一开始期望值和输出的差别越大,下降的速度越快。

交叉熵来自于信息论。

柔性最大值函数(softmax)  柔性最大值层的输出可以被看做是一个概率分布。

对数似然代价函数

train-data    validation-data  test-data  过拟合问题

规范化:

权重衰减

Dropout

更好的算法和更好的数据集

猜你喜欢

转载自blog.csdn.net/qq_41109499/article/details/85212483