8.1 Introduction

LR 是一个非常重要的模型，几乎所有的机器学习职位面试都会问到。因此这章是重点，一定要看懂。

8.2 Model specification

把线性回归的高斯分布，换成伯努利分布，就成了逻辑斯特回归，不过这个模型其实是个分类模型，

p (y | x, w) = Ber (y | sigm (w T x))

$p(y|\mathbf{x}, \mathbf{w}) = \text{Ber}(y|\text{sigm}(\mathbf{w}^T\mathbf{x}))$ 其中

sigm (η) ≜ e η 1 + e η

$\text{sigm}(\eta) \triangleq \frac{e^\eta}{1+ e^\eta}$ 表示 sigmoid function, or logit or logistic function.

最后 LR 学到的是一个线性决策面，而 $\mathbf{w}$ 就是该决策面的垂线（perpendicular）。

8.3 Model fitting 模型拟合

这一小节考虑怎么来估计 LR 中的参数，即 $\mathbf{w}$ 的取值。

8.3.1 MLE

$\text{LR}$ 里用的是伯努利分布（Bernoulli Distribution），其中只有一个参数 $\theta$ ，如果用

u i = p (y i = 1) = sigm (w T x i) = 1 1 + e w T x i

$u_i = p(y_i = 1) = \text{sigm}(\mathbf{w}^T\mathbf{x}_i) = \frac{1}{1+e^{\mathbf{w}^T\mathbf{x}_i}}$ 表示第

i $i$ 个样本中

yi=1 $y_i = 1$ 的概率，那么

LR $\text{LR}$ 的 negative log-likelihood 如下，

NLL (w) = - \sum i = 1 N log [μ I (y i = 1) i \times (1 - μ i) I (y i = 0)] = - \sum i = 1 N [y i log μ i + (1 - y i) log (1 - μ i)]

$\begin{align*} \text{NLL}(\mathbf{w}) & = -\sum_{i=1}^N \log [\mu_i^{\mathbb{I}(y_i = 1)} \times (1-\mu_i)^{\mathbb{I}(y_i = 0)}]\\ & = -\sum_{i=1}^N [y_i\log\mu_i + (1-y_i)\log(1-\mu_i)] \end{align*}$ 这个就是交叉熵（cross entropy）损失函数。

也有另一种表示方法，令

y^i∈{−1,+1},p(y=1)=11+exp(−wTx),p(y=0)=11+exp(+wTx)

$\hat y_i \in \{-1, +1\},\quad p(y=1) = \frac1{1+\exp(-\mathbf{w}^T\mathbf{x})},\quad p(y=0) = \frac1{1+\exp(+\mathbf{w}^T\mathbf{x})}$ 那么可以重写损失函数，

NLL (w) = \sum i = 1 N log (1 + exp (- y^i w T x i))

$\text{NLL}(\mathbf{w}) = \sum_{i=1}^N \log(1+\exp(-\hat y_i \mathbf{w}^T\mathbf{x}_i))$

yu这个交叉熵损失函数并没有封闭式解（closed-form solution），而是只能通过优化算法（optimizatin algorithm）或者说叫做迭代（iterative）的算法来解决。（关于封闭式解，可以举计算 $\sqrt 8$ 的例子来说明。）

我们来算一下第一种 $\text{NLL}$ 的梯度回传，注意书里的 $f(\mathbf{w}) \triangleq \text{NLL}(\mathbf{w})$ ，且记住 sigmoid 函数的一阶导数为 $u_i' = u_i (1 - u_i)$ ，或者稍微推导一下吧，

u' (α) = (1 1 + e α)' = e α ( 1 + e α ) 2 = u (α) (1 - u (α))

$u'(\alpha) = \left ( \frac1{1 + e^\alpha} \right )' = \frac{e^\alpha}{(1+e^\alpha)^2} = u(\alpha)(1 - u(\alpha))$ 那么一阶导数就可以像下面这样计算啦，

g = d d w f (w) = - d d w \sum i = 1 N [y i log μ i + (1 - y i) log (1 - μ i)] = \sum i - (y i u i d u i d w + 1 - y i 1 - u i (- 1) d u i d w) = \sum i u i - y i u i ( 1 - u i ) d u i d w = \sum i u i - y i u i ( 1 - u i ) d u i d α d α d w, α = w T x i, d u i d α = u' (α) = \sum i u i - y i u i ( 1 - u i ) u i (1 - u i) d w T x i d w = \sum i (u i - y i) x i = X T (u - y)

$\begin{align*} \mathbf{g} = \frac{d}{d\mathbf{w}}f(\mathbf{w}) & = - \frac{d}{d\mathbf{w}} \sum_{i=1}^N [y_i\log\mu_i + (1-y_i)\log(1-\mu_i)] \\ & = \sum_i - \left ( \frac{y_i}{u_i}\frac{du_i}{d\mathbf{w}} + \frac{1-y_i}{1-u_i}(-1)\frac{du_i}{d\mathbf{w}} \right ) \\ & = \sum_i \frac{u_i - y_i}{u_i (1- u_i)} \frac{du_i}{d\mathbf{w}} \\ & = \sum_i \frac{u_i - y_i}{u_i (1- u_i)} \frac{du_i}{d\alpha} \frac{d\alpha}{d\mathbf{w}}, \quad \alpha = \mathbf{w}^T \mathbf{x}_i,\quad \frac{du_i}{d\alpha} = u'(\alpha) \\ & = \sum_i \frac{u_i - y_i}{u_i (1- u_i)} u_i (1- u_i) \frac{d\mathbf{w}^T\mathbf{x}_i}{d\mathbf{w}} \\ & = \sum_i (u_i - y_i) \mathbf{x}_i = \mathbf{X}^T(\mathbf{u} - \mathbf{y}) \end{align*}$ 最后一步是结果的矩阵表示，其中

XTD×N=(x1,⋯,xn)D×N $\mathbf{X}^T_{D \times N} = (\mathbf{x}_1, \cdots, \mathbf{x}_n)_{D \times N}$ 表示训练集的输入数据，

u=(u1,⋯,uN)T,y=(y1,⋯,yN)T $\mathbf{u} = (u_1,\cdots,u_N)^T, \mathbf{y} = (y_1,\cdots,y_N)^T$ 均为列向量，分别是激活函数的输出和训练集的标签。所以权重向量

wD×1 $\mathbf{w}_{D \times 1}$ 的一阶导数是个相同大小的向量

gD×1 $\mathbf{g}_{D \times 1}$ .

二阶导是一个海森矩阵（Hessian Matrix），求起来就略麻烦，

H = \partial \partial 2 w f (w) = d d w g (w) T = d d w \sum i [(u i - y i) x i] T = \sum i d u i d w x T i = \sum i u i (1 - u i) x i x T i = X T S X

$\begin{align*} \mathbf{H} & = \frac{\partial}{\partial^2\mathbf{w}}f(\mathbf{w}) = \frac{d}{d\mathbf{w}}\mathbf{g}(\mathbf{w})^T \\ & = \frac{d}{d\mathbf{w}} \sum_i [(u_i - y_i) \mathbf{x}_i]^T \\ & = \sum_i \frac{du_i}{d\mathbf{w}}\mathbf{x}_i ^T = \sum_i u_i(1-u_i)\mathbf{x}_i \mathbf{x}_i^T = \mathbf{X}^T \mathbf{SX} \end{align*}$ 其中

S≜diag(μi(1−μi)) $\mathbf{S} \triangleq \text{diag}(\mu_i(1-\mu_i))$ ，我也不知道代表啥。

由最后的 $\mathbf{x}_i \mathbf{x}_i^T$ 可以看出，海森矩阵是个对称矩阵，还可以证明是个正定矩阵（然而我不会证明，书里也没给~），以此根据前面的凸优化概念，此函数是凸函数，那么必然有唯一的全局最优解。

补充一些 正定矩阵（positive definite）的知识，其实这里用不上，只是想找个地方记下来。

正定矩阵首先得是个 对称矩阵，以前没有意识到。然而不能直接通过定义判定给一个矩阵是不是正定的，因为定义说的是无穷个，怎么证明呢？不过一般可以通过两种方法来判定，一个是特征值是否全部大于零，这个是充要条件，然而需要求特征值，感觉略麻烦；另一个就是其所有 顺序主子式 全部大于零，也是充要条件。

顺序主子式是什么意思呢？其实 $k$ 阶方阵的顺序主子式有 $k$ 个，那么 $k$ 阶主子式就定义为前 $k$ 行 $k$ 列的元素组成的矩阵的行列式。当这 $k$ 个行列式全部大于零的话，该矩阵就是正定的，这个是充要条件。不过有时候你发现原矩阵的行列式不为零，那就一定不是正定矩阵了，其他的 $k-1$ 个顺序主子式就不用再算了。

正定矩阵是个对称矩阵，那么对称矩阵有很多好的性质，比如一定可以正交对角化。正交矩阵指的是满足 $\mathbf{Q}^{-1} = \mathbf{Q}^T$ 的方阵。

8.3.2 Steepest descent

梯度下降（gradient descent, or steepest descent）法可以按照下面的公式对参数进行更新：

θ k + 1 = θ k - η k g k

$\boldsymbol\theta_{k+1} = \boldsymbol{\theta}_k - \eta_k \mathbf{g}_k$ 其中

η $\eta$ 是步长（step size），或者叫做学习率（learning rate）。

考虑在学导数的定义时，有下面的式子成立，

f' (θ) = f ( θ + ▽ θ ) - f ( θ ) ▽ θ \Rightarrow f (θ + ▽ θ) = f (θ) + f' (θ) ▽ θ

$f'(\theta) = \frac{f(\theta + \triangledown\theta) - f(\theta)}{\triangledown\theta} \ \Rightarrow\ f(\theta + \triangledown\theta) = f(\theta) + f'(\theta)\triangledown\theta$ 考虑上面的公式，只有

▽θ→0 $\triangledown\theta \rightarrow 0$ 时等号才成立，否则就是约等于，其实就是一阶泰勒展开式。现在把结论推广到

f:Rn→R $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 上，那么就得到了书上的公式，

f (θ + η d) \approx f (θ) + η g T d

$f(\boldsymbol\theta + \eta\mathbf{d}) \approx f(\boldsymbol\theta) + \eta \mathbf{g}^T \mathbf{d}$ 极小量

▽θ $\triangledown\theta$ 就对应

ηd $\eta \mathbf{d}$ ，导数

f′(θ) $f'(\theta)$ 就对应梯度向量

g $\mathbf{g}$ ，因为极小量没有取极限，所以只能是约等于。向量

d $\mathbf{d}$ 的名字叫做下降方向（descent direction）向量。通过最小化

ϕ(η)=f(θk+ηdk) $\phi(\eta) = f(\boldsymbol\theta_k + \eta\mathbf{d}_k)$ 来取一个合适的步长

η $\eta$ ，这种方法就叫做是 line minimization or line search。

书里证明了极小量 $\mathbf{d}$ 和梯度 $\mathbf{g}$ 在找到极小值之前是垂直的，即 $\mathbf{g} \perp \mathbf{d}$ ，所以走的路是弯弯曲曲（zig-zag）的样子。

一种减少梯度下降路线曲折的方法是加一个 动量（momentum），即保留一些上个梯度向量的值，按照下面的公式更新，

θ k + 1 = θ k - η k g k + μ k (θ k - θ k - 1)

$\boldsymbol\theta_{k+1} = \boldsymbol{\theta}_k - \eta_k \mathbf{g}_k + \mu_k(\boldsymbol\theta_k - \boldsymbol{\theta}_{k-1})$ 其中

0≤μk≤1 $0 \le \mu_k \le 1$ 就是控制保留动量的权重，后面多出来的那项就是动量项。这种方法在凸优化里叫做 重球法（heavy ball method）.

还有另一种改进 zig-zag 的方法叫做 共轭梯度（conjugate gradients），是针对二次型目标函数 $f(\boldsymbol\theta) = \boldsymbol\theta^T\mathbf{A}\boldsymbol\theta$ ，但是不常用。

8.3.3 Newton’s method 牛顿法

有时候我们会用更快的优化方法，考虑空间的曲率（curvature of the space），这种方法叫做二阶优化方法（second order optimization methods），最常见的例子就是牛顿法。可以按照下面的公式更新参数，

θ k + 1 = θ k - η k H - 1 K g k

$\boldsymbol\theta_{k+1} = \boldsymbol\theta_k - \eta_k \mathbf{H}_K^{-1}\mathbf{g}_k$ 下面我们来推导一下。首先考虑函数

f(θ) $f(\boldsymbol\theta)$ 在

θk $\boldsymbol\theta_k$ 处的二阶泰勒级数近似（second-order Taypor series approximation），

f q u a d (θ) = f k + g T k (θ - θ k) + 1 2 (θ - θ k) T H k (θ - θ k)

$f_{quad}(\boldsymbol\theta) = f_k + \mathbf{g}_k^T(\boldsymbol\theta - \boldsymbol\theta_k) + \frac12 (\boldsymbol\theta - \boldsymbol\theta_k)^T\mathbf{H}_k(\boldsymbol\theta - \boldsymbol\theta_k)$ 因为这里的自变量是向量

θ $\boldsymbol\theta$ ，可以展开各项后化简成下式（注意化简的时候，海森矩阵

Hk $\mathbf{H}_k$ 是个对称矩阵，另外

θTHkθk $\boldsymbol\theta^T\mathbf{H}_k\boldsymbol\theta_k$ 是个标量，转置后仍相等），

f (θ) = θ T A θ + b T θ + c

$f(\boldsymbol\theta) = \boldsymbol\theta^T\mathbf{A}\boldsymbol\theta + \mathbf{b}^T\boldsymbol\theta + c$ 其中，

A = 1 2 H k, b = g k - H k θ k, c = f k - g T k θ k + 1 2 θ T k H k θ k

$\mathbf{A} = \frac12\mathbf{H}_k,\quad \mathbf{b} = \mathbf{g}_k - \mathbf{H}_k\boldsymbol\theta_k,\quad c = f_k - \mathbf{g}_k^T\boldsymbol\theta_k + \frac12\boldsymbol\theta_k^T\mathbf{H}_k\boldsymbol\theta_k$ 那么假如此函数是凸函数，只有唯一的极值点，也即最小值点，可以直接求导，

\partial f q u a d ( θ ) \partial θ = \partial ( θ T A θ ) \partial θ + \partial ( b T θ ) \partial θ = (A + A T) θ + b = 2 A θ + b

$\frac {\partial f_{quad}(\boldsymbol\theta)}{\partial \boldsymbol\theta} = \frac{\partial (\boldsymbol\theta^T\mathbf{A}\boldsymbol\theta)}{\partial \boldsymbol\theta} + \frac{\partial (\mathbf{b}^T\boldsymbol\theta)}{\partial \boldsymbol\theta} = (\mathbf{A} + \mathbf{A}^T)\boldsymbol\theta + \mathbf{b} = 2 \mathbf{A}\boldsymbol\theta + \mathbf{b}$ 令导数为零，可以得到极值点

θ = - 1 2 A - 1 b = - 1 2 (2 H - 1 k) (g k - H k θ k) = θ k - H - 1 k g k

$\boldsymbol\theta = -\frac12 \mathbf{A}^{-1}\mathbf{b} = -\frac12 (2 \mathbf{H}_k^{-1})(\mathbf{g}_k - \mathbf{H}_k\boldsymbol\theta_k) = \boldsymbol\theta_k - \mathbf{H}_k^{-1}\mathbf{g}_k$ 我们来分析一下得到极值点以后的情况，可以结合图 8.4a 来看，首先

f(x) $f(x)$ 和

fquad(x) $f_{quad}(x)$ 不是一条曲线，所以刚刚算出来的极值点

θ $\boldsymbol\theta$ 并不是真实函数曲线的极值点，但是 却可以代表极值点的下降方向。（当然 8.4b 是非凸函数的情况，结果就不一定了。）我们把此方向用 Newton Step

dk=−H−1kgk $\mathbf{d}_k = - \mathbf{H}_k^{-1}\mathbf{g}_k$ 表示，那么可以按照这个方向更新参数，就是这个小节一开始的公式。

当海森矩阵不满足正定的性质时，那么函数就不是凸函数，也无法保证 Newton Step 给出的方向是极小值的方向，这时候可做了这以简单低回到梯度下降的方法，事实上 Levenberg Marquardt algorithm 就自动做了这些事儿。另一种方法是用 truncated Newton，用了 conjugate gradient 的思想。

8.3.4 Iteratively reweighted least squares (IRIS)

考虑把牛顿法用到求解 $\text{LR}$ 问题上，记得前面对 $\text{LR}$ 的损失函数求解一阶和二阶导数，得到的梯度向量和海森矩阵，

g k H k = X T (μ k - y) = X T S k X

$\begin{align*}\mathbf{g}_k & = \mathbf{X}^T (\boldsymbol\mu_k - \mathbf{y}) \\ \mathbf{H}_k & = \mathbf{X}^T \mathbf{S}_k\mathbf{X}\end{align*}$ 带入迭代公式，并取更新权重为

ηk=1 $\eta_k = 1$ ，

w k + 1 = w k - H - 1 g k = (X T S k X) - 1 X T S k z k, 其 中 ， z k = X w k + S - 1 (y - μ k)

$\begin{align*} \mathbf{w}_{k+1} & = \mathbf{w}_k - \mathbf{H}^{-1}\mathbf{g}_k \\ & = (\mathbf{X}^T \mathbf{S}_k \mathbf{X})^{-1} \mathbf{X}^T \mathbf{S}_k \mathbf{z}_k , \quad 其中，\mathbf{z}_k = \mathbf{Xw}_k + \mathbf{S}^{-1}(\mathbf{y} - \boldsymbol\mu_k) \end{align*}$

回忆一下之前的 Linear Regression 的封闭解， $\hat{\mathbf{w}}_\text{OLS} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$ ，也是最小二乘问题的解，和上面的迭代公式是不是很像呢？那么这里每一次迭代，由于多了一个权重矩阵 $\mathbf{S}_k$ ，都可以看做是 带权重的最小二乘问题（weighted least squares problem），即第 $k$ 步迭代就是对下面的损失函数求解，且得到的结果是 $\mathbf{w}_{k+1}$ ，

RSS (w) = \sum i = 1 N S k i (z k i - w T x i) 2, 其 中 ， z k i = w T k x i + y i - μ k i μ k i ( 1 - μ k i )

$\text{RSS}(\mathbf{w}) = \sum_{i=1}^N S_{ki}(z_{ki} - \mathbf{w}^T \mathbf{x}_i)^2, \quad 其中，z_{ki} = \mathbf{w}^T_k \mathbf{x}_i + \frac{y_i - \mu_{ki}}{\mu_{ki}(1-\mu_{ki})}$ 这个算法就是 iteratively reweighted least squares or IRLS.

8.3.5 Quasi-Newton (variable metric) methods 拟牛顿法

所有二阶优化算法都是牛顿法，但是牛顿法的复杂度太高，因为计算海森矩阵的逆矩阵很麻烦，每次迭代都要计算一次。拟牛顿法的思想是用一个矩阵逐渐逼近海森矩阵和其逆矩阵，最常见的是 $\text{BFGS}$ 算法，用一个矩阵 $\mathbf{B}_k \approx \mathbf{H}_k$ 来逼近，

B k + 1 = B k + y k y T k y T k s k - ( B k s k ) ( B k s k ) T s T k B k s k, 其 中 ， s k = θ k - θ k - 1, y k = g k - g k - 1

$\mathbf{B}_{k+1} = \mathbf{B}_k + \frac{\mathbf{y}_k \mathbf{y}_k^T}{\mathbf{y}_k^T \mathbf{s}_k} - \frac{(\mathbf{B}_k\mathbf{s}_k)(\mathbf{B}_k\mathbf{s}_k)^T}{\mathbf{s}_k^T\mathbf{B}_k\mathbf{s}_k}, \quad 其中，\mathbf{s}_k = \boldsymbol\theta_k - \boldsymbol\theta_{k-1}, \mathbf{y}_k = \mathbf{g}_k - \mathbf{g}_{k-1}$ 矩阵

B $\mathbf{B}$ 可以从

B0=I $\mathbf{B}_0 = \mathbf{I}$ 单位矩阵开始，

BFGS $\text{BFGS}$ 算法可以看做是向海森矩阵的对角低秩逼近（diagonal plus low-rank approximation）。

同样的，逆矩阵也可以通过类似的方式逼近 $\mathbf{C}_k \approx \mathbf{H}_k^{-1}$ ，

C k + 1 = (I - s k y T k y T k s k) C k (I - y k s T k y T k s k) + s k s T k y T k s k

$\mathbf{C}_{k+1} = \left (\mathbf{I} - \frac{\mathbf{s}_k \mathbf{y}_k^T}{\mathbf{y}_k^T \mathbf{s}_k} \right ) \mathbf{C}_k \left (\mathbf{I} - \frac{\mathbf{y}_k \mathbf{s}_k^T}{\mathbf{y}_k^T \mathbf{s}_k} \right ) + \frac{\mathbf{s}_k \mathbf{s}_k^T}{\mathbf{y}_k^T \mathbf{s}_k}$

有时候数据很大，存储海森矩阵也很耗空间，需要 $O(D^2)$ 的空间复杂度，可以用limited memory BFGS, or L-BFGS，因为 $\mathbf{H}^{-1}_k\mathbf{g}_k$ 可以用 $m$ 对最近的 $(\mathbf{s}_k, \mathbf{y}_k)$ 的内积，存储化简为 $O(mD)$ 的复杂度。

8.3.6 $\ell_2$ regularization

可以像岭回归一样，对 $\text{LR}$ 问题进行 $\text{MAP}$ 而非 $\text{MLE}$ ，加了 $\ell_2$ 正则化后的目标函数，梯度和海森矩阵如下：

f' (w) g' (w) H' (w) = NLL (w) + λ w T w = g (w) + λ w = H (w) + λ I

$\begin{align*} f'(\mathbf{w}) & = \text{NLL}(\mathbf{w}) + \lambda\mathbf{w}^T\mathbf{w}\\ \text{g}'(\mathbf{w}) & = \mathbf{g}(\mathbf{w}) + \lambda\mathbf{w} \\ \text{H}'(\mathbf{w}) & = \mathbf{H}(\mathbf{w}) + \lambda\mathbf{I} \end{align*}$ 然而我不理解这个是怎么推出来的。

8.3.7 Multi-class logistic regression

把 $\text{LR}$ 从二分类问题推广到多分类问题上去，叫做 multinomial logistic regression，有时候也叫作 最大熵分类器（maximum entropy classifier），形式如下，

p (y = c | x, W) = exp ( w T c x ) \sum C c ' = 1 exp ( w T c ' x )

$p(y=c|\mathbf{x}, \mathbf{W}) = \frac{\text{exp}(\mathbf{w}_c^T \mathbf{x})}{\sum_{c'=1}^C \text{exp}(\mathbf{w}_{c'}^T \mathbf{x})}$ 后面是一个

Softmax $\text{Softmax}$ 函数，定义

u i c = p (y i = c | x i, W) = S (η i) c, where η i = W T x i

$u_{ic} = p(y_i = c | \mathbf{x}_i, \mathbf{W}) = \mathcal{S}(\boldsymbol\eta_i)_c, \quad \text{where}\ \boldsymbol\eta_i = \mathbf{W}^T\mathbf{x}_i$ 其中

ηi $\boldsymbol\eta_i$ 是一个

C×1 $C \times 1$ 的列向量，经过

Softmax $\text{Softmax}$ 函数后，转化成概率分布。而真实的标签

yi $\mathbf{y}_i$ 也是和

ηi $\boldsymbol\eta_i$ 一样的列向量，不过是用 One-Hot 编码，或者叫 one-of-C encoding，就是当且

yi=c $y_i = c$ 那项为比特

1 $1$ ，其他均为

0 $0$ .

书里继续推导了似然函数，导数，和海森矩阵的相应公式。

8.4 Bayesian logistic regression

8.4.1 Laplace approximatino

8.4.2 Derivation of the BIC

8.4.3 Gaussian approximation for logistic regression

8.4.4 Approximating the posterior predictive

8.4.4.1 Monte Carlo approximatino

8.4.4.2 Probit approximation (moderated output) *

8.4.5 Residual analysis (outlier detection)

8.5 Online learning and stochastic optimazation

传统上，我们的机器学习都是离线学习（offline），现在来总结一下。大部分都是这样的形式，

f (θ) = 1 N \sum i = 1 N f (θ, z i)

$f(\boldsymbol\theta) = \frac1N \sum_{i=1}^N f(\boldsymbol\theta, \mathbf{z}_i)$ 其中

zi=(xi,yi) $\mathbf{z}_i = (\mathbf{x}_i, \mathbf{y}_i)$ 表示 supervised data，或者

zi=xi $\mathbf{z}_i = \mathbf{x}_i$ 表示 unsupervised data. 后面的

f(θ,zi) $f(\boldsymbol\theta, \mathbf{z}_i)$ 表示损失函数，可以有两种定义，

f (θ, z i) = - log p (y i | x i, θ)

$f(\boldsymbol\theta, \mathbf{z}_i) = - \log p(y_i | \mathbf{x}_i, \boldsymbol\theta)$ 这样子可以用最大似然估计来估算参数。另一种损失函数可以这样定义，

f (θ, z i) = L (y i, h (x i, θ))

$f(\boldsymbol\theta, \mathbf{z}_i) = L(y_i, h(\mathbf{x}_i, \boldsymbol\theta))$ 里面的

h(xi,θ) $h(\mathbf{x}_i, \boldsymbol\theta)$ 是决策函数，损失函数

L(yi,y^) $L(y_i, \hat y)$ 可以是均方误差，也可以是 Huber loss 等。在频率学派的学习理论中，平均损失叫做风险（risk），这整个学习的流程叫做经验风险最小化（ERM, empirical risk minimizatino）.

当我们面对的数据是流数据（streaming data）时，或者数据量特别大时，我们希望进行在线学习（online learning）。

8.5.1 Online learning and regret minimization

假设在第 $k$ 次迭代时，要学习一个参数 $\boldsymbol\theta_k$ ，在理论机器学习社区，目标函数称为 regret，定义如下，

regret k ≜ 1 k \sum k = 1 K f (θ t, z t) - min θ * \in Θ 1 k \sum t = 1 k f (θ *, z k)

$\text{regret}_k \triangleq \frac1k \sum_{k=1}^K f(\boldsymbol\theta_t, \mathbf{z}_t) - \min_{\boldsymbol\theta^* \in \Theta} \frac1k \sum_{t=1}^k f(\boldsymbol\theta_*, \mathbf{z}_k)$

一个简单的在线学习算法就是在线梯度下降（online gradient descent），即针对每步 $k$ ，可以这样更新参数

θ k + 1 = proj Θ (θ k - η k g k)

$\boldsymbol\theta_{k+1} = \text{proj}_\Theta(\boldsymbol\theta_k - \eta_k\mathbf{g}_k)$ 其中

projυ(v)=argminw∈V∥w−v∥2 $\text{proj}_\upsilon(\mathbf{v}) = \arg\min_{\mathbf{w} \in \mathbf{V}} \| \mathbf{w} - \mathbf{v} \|_2$ 指的是把向量

v $\mathbf{v}$ 投影到空间

v $v$ 上去。还有

gk=▽f(θk,zk) $\mathbf{g}_k = \triangledown f(\boldsymbol\theta_k, \mathbf{z}_k)$ 表示梯度。

8.5.2 Stochastic optimization and risk minimization

最小化 regret 可以转化成最小化

f (θ) = E [f (θ, z)]

$f(\boldsymbol\theta) = \mathbb{E}[f(\boldsymbol\theta, \mathbf{z})]$ 要优化的目标里有随机变量，此过程叫做随机优化（stochastic optimization），上面的参数更新公式叫做随机梯度下降（SGD, stochastic gradient descent）。每一步（step）都会估计出一个参数，最后用这些参数的平均数最最后模型的参数。

θ ¯ k = 1 k \sum t = 1 k θ t

$\overline{\boldsymbol\theta}_k = \frac1k\sum_{t=1}^k\boldsymbol\theta_t$ 也可以像这样递归地更新。

8.5.2.1 Setting the step size

8.5.2.2 Per-parameter step sizes

SGD 的参数更新步长会比较固定，而 adagrad 弥补了这一缺陷，更新公式如下，

θ i (k + 1) = θ i (k) - η g i ( k ) τ 0 + s i ( k ) - - - - \sqrt

$\theta_i(k+1) = \theta_i(k) - \eta\frac{g_i(k)}{\tau_0 + \sqrt{s_i(k)}}$ 其中

θi(k) $\theta_i(k)$ 表示第

i $i$ 个参数的第

k $k$ 次迭带和更新参数，

gi(k) $g_i(k)$ 表示对应梯度，

si(k) $s_i(k)$ 表示梯度向量的平方和，可以累加得到，

s i (k) = s i (k - 1) + g i (k) 2

$s_i(k) = s_i(k-1) + g_i(k)^2$ 可以看到分母是越来越大的，那么相当于随着迭带次数的增加，学习率会越来越小，而且由于

si(k) $s_i(k)$ 是梯度的累加，所以也是和损失函数的曲面相适应的（adapt to the curvature of the loss function）。

8.5.2.3 SGD compared to batch learning

mini-batch 的方法，是把整个大数据集分成一个小的 batch，在整个数据集上遍历一遍叫做一次 epoch，假如用 $B$ 表示每个 batch 的大小，那么 $B = 1$ 就是标准的 SGD，当 $B = N$ 是就是标准的 steepest descent。

8.5.3 The LMS algorithm

我们回头看一下梯度下降是如何在线性回归上求解最大似然估计的（最小化似然函数）。还记的上一章推导的梯度向量为

g k = x i (θ T k x i - y i)

$\mathbf{g}_k = \mathbf{x}_i(\boldsymbol\theta_k^T \mathbf{x}_i - y_i)$ 如果再用

y^k=θTkxi $\hat y_k = \boldsymbol\theta_k^T \mathbf{x}_i$ 表示预测值，那么梯度更新公式可以写做，

θ k + 1 = θ k - η k (y^k - y k) x k

$\boldsymbol\theta_{k+1} = \boldsymbol\theta_{k} - \eta_k(\hat y_k - y_k)\mathbf{x}_k$ 这个算法就叫做是 least mean squares，或者 LMS 算法。

8.5.4 The perceptron algorithm

对于二元逻辑斯特回归，更新公式为，

θ k = θ k - 1 - η k (u i - y i) x i

$\boldsymbol\theta_{k} = \boldsymbol\theta_{k-1} - \eta_k(u_i - y_i)\mathbf{x}_i$ 其中

ui=p(yi=1|xi,θk)=E[yi|xi,θk] $u_i = p(y_i = 1 | \mathbf{x}_i, \boldsymbol\theta_k) = \mathbb{E}[y_i | \mathbf{x}_i, \boldsymbol\theta_k]$ . 如果我们用

y∈{−1,1} $y \in \{-1, 1\}$ 代替

y∈{0,1} $y \in \{0, 1\}$ ，那么预测改为

y^=sign(θTxi) $\hat y = \text{sign}(\boldsymbol\theta^T\mathbf{x}_i)$ ，更新公式改成了，

θ k = θ k - 1 - η k y i x i

$\boldsymbol\theta_{k} = \boldsymbol\theta_{k-1} - \eta_k y_i\mathbf{x}_i$ 这个就是感知机算法（perceptron algorithm），这是个历史上的第一个机器学习模型。

8.5.5 A Bayesian view

贝叶斯总有更好的方法，online learning 都能做，就是你看不懂。

8.6 Generative vs discriminative classifiers 生成分类器 VS 判别分类器

同样是处理分类问题，高斯判别分析（GDA, Gaussian Discriminant Analysis）是生成模型，假设数据是符合高斯分布的，去最大化联合对数似然（joint log likelihood） $\sum_{i=1}^N \log p(y_i, \mathbf{x}_i | \boldsymbol\theta)$ ；而生成模型则是最大化条件对数似然（conditional log likelihood） $\sum_{i=1}^N \log p(y_i | \mathbf{x}_i, \boldsymbol\theta)$ 。

8.6.1 Pros and cons of each approach

总结了一下两种模型的优缺点。

问题	生成模型	判别模型
模型拟合	更容易	要解决凸优化问题
添加新类别	只需改动一点	要重训练
数据丢失	可以处理	无法处理
处理无标签数据	处理半监督问题	无法处理
输入和输出的对称	可以逆着从输出推断输入	无法处理
特征预处理	无法处理	可以推广到 GLM
概率矫正	概率易走极端	概率较正确

MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

8.1 Introduction

8.2 Model specification

8.3 Model fitting 模型拟合

8.3.1 MLE

8.3.2 Steepest descent

8.3.3 Newton’s method 牛顿法

8.3.4 Iteratively reweighted least squares (IRIS)

8.3.5 Quasi-Newton (variable metric) methods 拟牛顿法

8.3.6 $\ell_2$ regularization

8.3.7 Multi-class logistic regression

8.4 Bayesian logistic regression

8.4.1 Laplace approximatino

8.4.2 Derivation of the BIC

8.4.3 Gaussian approximation for logistic regression

8.4.4 Approximating the posterior predictive

8.4.4.1 Monte Carlo approximatino

8.4.4.2 Probit approximation (moderated output) *

8.4.5 Residual analysis (outlier detection)

8.5 Online learning and stochastic optimazation

8.5.1 Online learning and regret minimization

8.5.2 Stochastic optimization and risk minimization

8.5.2.1 Setting the step size

8.5.2.2 Per-parameter step sizes

8.5.2.3 SGD compared to batch learning

8.5.3 The LMS algorithm

8.5.4 The perceptron algorithm

8.5.5 A Bayesian view

8.6 Generative vs discriminative classifiers 生成分类器 VS 判别分类器

8.6.1 Pros and cons of each approach

8.6.2 Dealing with missing data

8.6.2.1 Missing data at test time

8.6.2.2 Missing data at training time

8.6.3 Fisher’s linear discriminant analysis (FLDA) *

8.6.3.1 Derivation of the optimal 1d projection

8.6.3.2 Extension to higher dimensions and multiple classes

8.6.3.3 Probabilistic interpretation of FLDA *

猜你喜欢

MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

8.1 Introduction

8.2 Model specification

8.3 Model fitting 模型拟合

8.3.1 MLE

8.3.2 Steepest descent

8.3.3 Newton’s method 牛顿法

8.3.4 Iteratively reweighted least squares (IRIS)

8.3.5 Quasi-Newton (variable metric) methods 拟牛顿法

8.3.6 ℓ2 \ell_2 regularization

8.3.7 Multi-class logistic regression

8.4 Bayesian logistic regression

8.4.1 Laplace approximatino

8.4.2 Derivation of the BIC

8.4.3 Gaussian approximation for logistic regression

8.4.4 Approximating the posterior predictive

8.4.4.1 Monte Carlo approximatino

8.4.4.2 Probit approximation (moderated output) *

8.4.5 Residual analysis (outlier detection)

8.5 Online learning and stochastic optimazation

8.5.1 Online learning and regret minimization

8.5.2 Stochastic optimization and risk minimization

8.5.2.1 Setting the step size

8.5.2.2 Per-parameter step sizes

8.5.2.3 SGD compared to batch learning

8.5.3 The LMS algorithm

8.5.4 The perceptron algorithm

8.5.5 A Bayesian view

8.6 Generative vs discriminative classifiers 生成分类器 VS 判别分类器

8.6.1 Pros and cons of each approach

8.6.2 Dealing with missing data

8.6.2.1 Missing data at test time

8.6.2.2 Missing data at training time

8.6.3 Fisher’s linear discriminant analysis (FLDA) *

8.6.3.1 Derivation of the optimal 1d projection

8.6.3.2 Extension to higher dimensions and multiple classes

8.6.3.3 Probabilistic interpretation of FLDA *

猜你喜欢

8.3.6 $\ell_2$ regularization