转自:https://www.zhihu.com/question/40403377?sort=created
有两点原因。
softmax的形式为:
原因之一在于softmax设计的初衷,是希望特征对概率的影响是乘性的。
原因之二在于,多类分类问题的目标函数常常选为cross-entropy,即 ,其中目标类的 等于1,其它类的 等于0。在神经网络模型(最简单的logistic regression也可看成没有隐含层的神经网络)中,输出层第 个神经元的输入为 。
神经网络是用error back-propagation训练的,这个过程中有一个关键的量是 。
可以算出,同时使用softmax和cross-entropy时, 。
这个形式非常简洁,而且与线性回归(采用最小均方误差目标函数)、两类分类(采用cross-entropy目标函数)时的形式一致。
作者:王赟 Maigo
链接:https://www.zhihu.com/question/40403377/answer/86647017
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。