公式太麻烦,没写公式。
交叉熵函数作为代价函数
用求导推理说明了这样比二次代价函数(方差的形式)要更好一些,即导数和(y-a)成正比。
一开始期望值和输出的差别越大,下降的速度越快。
交叉熵来自于信息论。
柔性最大值函数(softmax) 柔性最大值层的输出可以被看做是一个概率分布。
对数似然代价函数
train-data validation-data test-data 过拟合问题
规范化:
权重衰减
Dropout
更好的算法和更好的数据集
公式太麻烦,没写公式。
交叉熵函数作为代价函数
用求导推理说明了这样比二次代价函数(方差的形式)要更好一些,即导数和(y-a)成正比。
一开始期望值和输出的差别越大,下降的速度越快。
交叉熵来自于信息论。
柔性最大值函数(softmax) 柔性最大值层的输出可以被看做是一个概率分布。
对数似然代价函数
train-data validation-data test-data 过拟合问题
规范化:
权重衰减
Dropout
更好的算法和更好的数据集