一、softmax的定义
现有一组值x1、x2、x3
x1变换为,x2、x3依次类推
变换后的新值值域是[0,1],所有新值的和等于1,跟概率特征很像,所以有了以下应用。
二、在多分类中应用
某个网络要做多分类,假设分3类,输出节点就有3个,输出值经过了softmax变换,所以输出值值域为[0,1],所有输出值的和等于1。
用xi表示第i个样本,h1(xi)表示样本xi为输入时,第一个输出值的值,h2(xi)、h3(xi)以此类推。
h1、h2、h3就可以用来表示此样本属于第1、2、3类的概率。
下面构建损失函数:
若此样本属于第1类,则此样本的概率加权和=h1(xi)*1+h2(xi)*0+h3(xi)*0=h1(xi)
所有样本的概率加权和相加g=h1(x1)+h3(x2)+h1(x3).... 应该让这个g最大化
下面对g变换一下,loss=-g/n n是样本数
现在问题变为求loss的最小值