softmax regression和LR有些相似,可以说是LR的多分类版本,用于解决多项式分布问题。
首先回顾一下逻辑回归中提到的:对于指数分布族,y的分布函数可以表示为,其中T(y)表示充分统计量,在大多数情况下(比如LR)T(y)=y。但是在softmax regression中,。
这里, , ... ,,
定义指示函数,
那么T(y)中的第i个元素的值可以表示为
对于多项式分布,有分别表示对应下表分类的概率,
, ,
softmax regression需要做的是:
给定标签和训练样本
最大化参数的似然函数:
然后对它取对数,利用梯度下降法求最大值。在推导的时候遇到一点问题,看到好多推导方法里,我不是很理解为什么分母前面的1没了。
我觉得这个方法是拟合了多条直线,分别可以代表归于i类的可能性,然后预测结果为可能性最大的那一个(不知道这样的理解对不对)