1. Logistic与Softmax简述

谈到Logistic回归首先谈到便是逻辑思谛分布，其概率分布如下图所示：
这里写图片描述
可以看出该分布函数是一条S形曲线，曲线以点(0,12)(0,12)作为对称中心，且其值的范围是从 $[0,1]$ 的。而二项Logistic回归便是参数化的逻辑思谛分布。则对于有 $m$ 个已经标记好的样本构成： $(x_1,y_1),(x_2,y_2),(x_3,y_3),\ldots(x_m,y_m)$ （其中特征向量 $x$ 是进行了增广操作，将偏置 $b$ 添加进去了的），对应的分类 $y\in{\{0,1\}}$ ，则可以将概率描述为：

h_{θ} (x) = \frac{1}{1 + e x p (- θ x)}

$h_\theta(x)=\frac{1}{1+exp(−\theta x)}$
需要通过训练确定参数

θ

$\theta$ ，使得下面的最小化损失函数最小化：

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y_{i} l o g (h_{θ} (x_{i})) + (1 - y_{i}) l o g (1 - h_{θ} (x_{i})]

$J(θ)=−\frac{1}{m}[\sum_{i=1}^my_ilog(h_\theta(x_i))+(1−y_i)log(1−h_\theta(x_i)]$
而对于Softmax回归，其解决的是多分类问题。则对应的标记

y \in {1, 2, . . . k}

$y\in{\{1,2,...k\}}$ ，其中k是分类的类型数目。对于给定的测试输入

x

$x$ ，我们想用假设函数针对每一个类别jj估算出概率值

p (y = j | x)

$p(y=j|x)$ 。也就是说，我们想估计

x

$x$ 的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个

k

$k$ 维的向量（向量元素的和为1）来表示这

k

$k$ 个估计的概率值。具体地说，我们的假设函数

h_{θ} (x)

$h_\theta(x)$ 形式如下：

\begin{aligned} (1) & h_{θ} (x_{i}) = [\begin{matrix} p (y_{i} = 1 | x_{i}; θ) \\ p (y_{i} = 2 | x_{i}; θ) \\ ⋮ \\ p (y_{i} = k | x_{i}; θ) \end{matrix}] = \frac{1}{\sum_{j = 1}^{k} e^{θ_{j} x_{i}}} [\begin{matrix} e^{θ_{1} x_{i}} \\ e^{θ_{2} x_{i}} \\ ⋮ \\ e^{θ_{k} x_{i}} \end{matrix}] \end{aligned}

$\begin{align} h_\theta(x_i) = \begin{bmatrix} p(y_i = 1 | x_i; \theta) \\ p(y_i = 2 | x_i; \theta) \\ \vdots \\ p(y_i = k | x_i; \theta) \end{bmatrix} = \frac{1}{ \sum_{j=1}^{k}{e^{ \theta_j x_i }} } \begin{bmatrix} e^{ \theta_1 x_i } \\ e^{ \theta_2 x_i } \\ \vdots \\ e^{ \theta_k x_i } \\ \end{bmatrix} \end{align}$
其中

θ_{1}, θ_{2}, \dots, θ_{k}

$\theta_1,\theta_2,\ldots,\theta_k$ 是模型需要求解的参数。请注意

\frac{1}{\sum_{j = 1}^{k} e^{θ_{j} x_{i}}}

$\frac{1}{ \sum_{j=1}^{k}{e^{ \theta_j x_i }} }$ 这一项对概率分布进行归一化，使得所有概率之和为1。也就是比较输出概率相对来说较大的那一个作为最后分类的结果。

2. 损失函数的定义

在本文讲述的回归模型中使用 $1\{⋅\}$ 来代表事件发生与否，例如， $1\{1+2=3\}=1$ ，而 $1\{1+3=3\}=0$ 。则可以将损失函数定义为：

\begin{aligned} (2) & J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y_{i} = j} \log \frac{e^{θ_{j} x_{i}}}{\sum_{l = 1}^{k} e^{θ_{l} x_{i}}}] \end{aligned}

$\begin{align} J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left\{y_i = j\right\} \log \frac{e^{\theta_j x_i}}{\sum_{l=1}^k e^{ \theta_l x_i }}\right] \end{align}$
其中，

m

$m$ 是训练样本的数量，

k

$k$ 是分类类型数目。上面是Softmax回归对应的损失函数定义，则对于前面的Logistic回归可以将其改写为：

\begin{aligned} (3) & J (θ) & = - \frac{1}{m} [\sum_{i = 1}^{m} (1 - y_{i}) \log (1 - h_{θ} (x_{i})) + y_{i} \log h_{θ} (x_{i})] \\ (4) & = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 0}^{1} 1 {y_{i} = j} \log p (y_{i} = j | x_{i}; θ)] \end{aligned}

$\begin{align} J(\theta) &= -\frac{1}{m} \left[ \sum_{i=1}^m (1-y_i) \log (1-h_\theta(x_i)) + y_i \log h_\theta(x_i) \right] \\ &= - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=0}^{1} 1\left\{y_i = j\right\} \log p(y_i = j | x_i ; \theta) \right] \end{align}$
得到了上面所述的损失函数就可以使用梯度优化算子进行求解最优参数了，但是通常不是用上面的损失函数来作为计算的损失函数的，而是使用其改进。具体来说，就是和权重衰减(weight decay)一起使用。

3. Softmax回归的参数特点

Softmax 回归有一个不寻常的特点：它有一个“冗余”的参数集。为了便于阐述这一特点，假设我们从参数向量 $\theta_j$ 中减去了向量 $\psi$ ，这时，每一个 $\theta_j$ 都变成了 $\theta_j−\psi(j=1,…,k)$ 。此时假设函数变成了以下的式子：

\begin{aligned} (5) & p (y_{i} = j | x_{i}; θ) & = \frac{e^{(θ_{j} - ψ) x_{i}}}{\sum_{l = 1}^{k} e^{(θ_{l} - ψ) x_{i}}} \\ (6) & = \frac{e^{θ_{j} x_{i}} e^{- ψ x_{i}}}{\sum_{l = 1}^{k} e^{θ_{l} x_{i}} e^{- ψ x_{i}}} \\ (7) & = \frac{e^{θ_{j} x_{i}}}{\sum_{l = 1}^{k} e^{θ_{l} x_{i}}} . \end{aligned}

$\begin{align} p(y_i = j | x_i ; \theta) &= \frac{e^{(\theta_j-\psi) x_i}}{\sum_{l=1}^k e^{ (\theta_l-\psi) x_i}} \\ &= \frac{e^{\theta_j x_i} e^{-\psi x_i}}{\sum_{l=1}^k e^{\theta_l x_i} e^{-\psi x_i}} \\ &= \frac{e^{\theta_j x_i}}{\sum_{l=1}^k e^{ \theta_l x_i}}. \end{align}$
换句话说，从

θ_{j}

$\theta_j$ 中减去

ψ

$\psi$ 完全不影响假设函数的预测结果！这表明前面的 Softmax 回归模型中存在冗余的参数。更正式一点来说，Softmax 模型被过度参数化了。对于任意一个用于拟合数据的假设函数，可以求出多组参数值，这些参数得到的是完全相同的假设函数

h_{θ}

$h_\theta$ 。

进一步而言，如果参数 $(\theta_1, \theta_2,\ldots, \theta_k)$ 是代价函数 $J(\theta)$ 的极小值点，那么 $(\theta_1 - \psi, \theta_2 - \psi,\ldots,\theta_k - \psi)$ 同样也是它的极小值点，其中 $\psi$ 可以为任意向量。因此使 $J(\theta)$ 最小化的解不是唯一的。（有趣的是，由于 $J(\theta)$ 仍然是一个凸函数，因此梯度下降时不会遇到局部最优解的问题。但是 Hessian 矩阵是奇异的/不可逆的，这会直接导致采用牛顿法优化就遇到数值计算的问题）

注意，当 $\psi = \theta_1$ 时，我们总是可以将 $\theta_1$ 替换为 $\theta_1 - \psi = \vec{0}$ （即替换为全零向量），并且这种变换不会影响假设函数。因此我们可以去掉参数向量 $\theta_1$ （或者其他 $\theta_j$ 中的任意一个）而不影响假设函数的表达能力。实际上，与其优化全部的 $k\times(n+1)$ 个参数 $(\theta_1, theta_2,\ldots, \theta_k)$ ，我们可以令 $\theta_1 =\vec{0}$ ，只优化剩余的 $(k-1)\times(n+1)$ 个参数，这样算法依然能够正常工作。

在实际应用中，为了使算法实现更简单清楚，往往保留所有参数 $(\theta_1,\theta_2,\ldots,\theta_n)$ ，而不任意地将某一参数设置为 0。但此时我们需要对代价函数做一个改动：加入权重衰减。权重衰减可以解决Softmax 回归的参数冗余所带来的数值问题。

4. 权重衰减

我们通过添加一个权重衰减项 $\frac{\lambda}{2} \sum_{i=1}^k \sum_{j=0}^n \theta_{ij}^2$ 来修改代价函数，这个衰减项会惩罚过大的参数值，现在我们的代价函数变为：

\begin{aligned} (26) & J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y_{i} = j} \log \frac{e^{θ_{j} x_{i}}}{\sum_{l = 1}^{k} e^{θ_{l} x_{i}}}] + \frac{λ}{2} \sum_{i = 1}^{k} \sum_{j = 0}^{n} θ_{i j}^{2} \end{aligned}

$\begin{align} J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left\{y_i = j\right\} \log \frac{e^{\theta_j x_i}}{\sum_{l=1}^k e^{ \theta_l x_i }} \right] + \frac{\lambda}{2} \sum_{i=1}^k \sum_{j=0}^n \theta_{ij}^2 \end{align}$
有了这个权重衰减项以后

(λ > 0)

$(\lambda>0)$ ，代价函数就变成了严格的凸函数，这样就可以保证得到唯一的解了。此时的 Hessian矩阵变为可逆矩阵，并且因为

J (θ)

$J(\theta)$ 是凸函数，梯度下降法和 L-BFGS 等算法可以保证收敛到全局最优解。
为了使用优化算法，我们需要求得这个新函数

J (θ)

$J(\theta)$ 的导数，如下：

\begin{aligned} (27) & \nabla_{θ_{j}} J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [x_{i} (1 {y_{i} = j} - p (y_{i} = j | x_{i}; θ))] + λ θ_{j} \end{aligned}

$\begin{align} \nabla_{\theta_j} J(\theta) = - \frac{1}{m} \sum_{i=1}^{m}{ \left[ x_i ( 1\{ y_i = j\} - p(y_i = j | x_i; \theta) ) \right] } + \lambda \theta_j \end{align}$
通过最小化

J (θ)

$J(\theta)$ ，我们就能实现一个可用的Softmax 回归模型。
这样做的好处：
（1）使得代价函数的Hessian矩阵可逆，保证算法收敛
（2）使得最后得到的参数

θ

$\theta$ 尽可能趋向0，减少模型复杂度，这样增加算法鲁棒

5. Logstic与Softmax比较

5.1 联系

对于Softmax回归当分类数目 $k=2$ 的时候，Softmax将会退化为Logistic回归，则其概率函数可以描述为：

h_{θ} (x) = \frac{1}{e^{θ 1 x} + e^{θ 2 x}} [e θ 1 x, e θ 2 x]

$h_\theta(x)=\frac{1}{e^{\theta1x}+e^{\theta2x}}[eθ1x,eθ2x]$
则根据Softmax的参数冗余性质，可以令

θ 1 = ψ

$\theta1=\psi$ ，则上面的式子就可以转换为：

h_{θ} (x) = \frac{1}{e^{\vec{0} x} + e^{(θ 2 - θ 1) x}} [e^{\vec{0} x}, e^{θ 2 - θ 1) x}] = [\frac{1}{1 + e^{(θ 2 - θ 1) x}}, \frac{e^{(θ 2 - θ 1) x}}{1 + e^{(θ 2 - θ 1) x}}] = [\frac{1}{1 + e^{(θ 2 - θ 1) x}}, 1 - \frac{1}{1 + e^{(θ 2 - θ 1) x}}]

$h_\theta(x)=\frac{1}{e^{\vec0x}+e^{(\theta2−\theta1)x}}[e^{\vec0x},e^{\theta2-\theta1)x}]\\ =[\frac{1}{1+e^{(\theta2−\theta1)x}},\frac{e^{(\theta2−\theta1)x}}{1+e^{(\theta2−\theta1)x}}]\\ =[\frac{1}{1+e^{(\theta2−\theta1)x}},1−\frac{1}{1+e^{(\theta2−\theta1)x}}]$
则使用

α

$\alpha$ 来代表上式中的

θ 2 - θ 1

$\theta2-\theta1$ ，则就是逻辑回归的形式了。

5.2 使用区别

简单将其描述为：
（1）对于分类中存在概念交叉的分类，使用多个Logistic回归
（2）对于分类中不存在概念交叉的分类，使用多分类的Softmax回归

6. 参考

Softmax回归

Logistic回归和Softmax回归理解