周志华-机器学习-笔记（二）-线性模型

　　线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。如，给定由d个属性描述的示例 $x=(x_{1};x_{2};...;x_{d})$ ，其中 $x_{i}$ 是在 $i$ 个属性上的取值，则线性模型为

f (x) = w_{1} x_{1} + w_{2} x_{2} + . . . + w_{d} x_{d} + b

$f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$
一般写成向量形式

f (x) = w^{T} x + b

$f(x)=w^{T}x+b$
其中

w = (w_{1}; w_{2}; . . .; w_{d})

$w=(w_{1};w_{2};...;w_{d})$ ，

w

$w$ 和

b

$b$ 学得之后，模型就得以确定。

线性模型有很好的可解释性(comprehensibility)。
许多功能更为强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得。

下面介绍几种经典的线性模型。

线性回归

　　给定数据集 $D=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})\}$ ，其中 $x_{i}=(x_{i1};x_{i2};...;x_{id}),y_{i}\in R$ ，（ $y_{i}$ 是对应的 $x_{i}$ 的标签）
线性回归试图学得

f (x_{i}) = w x_{i} + b ， 使 得 f (x_{i}) 接 近 与 y_{i}

$f(x_{i})=w x_{i}+b，使得f(x_{i})接近与 y_{i}$
　　在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。求解

w

$w$ 和

b

$b$ 使

E_{(w, b)} = \sum_{i = 1}^{m} (y_{i} - w x_{i} - b)^{2}

$E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”(parameter estimation)
假如输出标尺是在指数尺度上的变化，那将输出标尺的对数作为线性模型逼近的目标，即

\ln y = w^{T} x + b

$\ln{y}=w^{T}x+b$
这就是“对数线性回归”(log-linear regression)
这里写图片描述

更一般地，使用单调可微函数

g (\cdot)

$g(\cdot)$ ，用

y = g^{- 1} (w^{T} x + b)

$y=g^{-1}(w^{T}x+b)$
　　这样的模型称为“广义线性模型”(generalized linear model)，函数

g (\cdot)

$g(\cdot)$ 称为“联系函数“(link function)。对数线性回归是广义线性模型在

g (\cdot) = \ln (\cdot)

$g(\cdot)=\ln(\cdot)$ 时的一个特例。

对数几率回归

　　广义线性模型在做分类任务时，只需找一个单调可微函数将分类任务的真实标记 $y$ 与线性回归模型的预测值联系起来。
　　考虑二分类任务时，输出标记为 $y=\{0,1\}$ ，而线性回归模型产生的预测值 $z=w^{T}x+b$ 是实值，所以要将实值 $z$ 转换为 $0/1$ 值，最理想的是”单位阶跃函数“(unit-step function)。(若预测值为临界值0时则可以任意判别)。
　　但问题是单位阶跃函数是不连续的函数，因此不能直接用作 $g^{-}(\cdot)$ 。故有没有理想的替代函数，既有单位阶跃函数的特点，同时是单调可微的呢？对数几率函数(logistic function)就是这样一个常用的替代函数：

y = \frac{1}{1 + e^{- z}}

$y=\frac{1}{1+e^{-z}}$
如下图：
这里写图片描述

　　对数几率函数可以将

z

$z$ 值转化为一个接近0或1的

y

$y$ 值，并在

z = 0

$z=0$ 附近变化很陡，将代数几率函数作为

g (\cdot)

$g(\cdot)$ 代入广义线性模型，有

y = \frac{1}{1 + e^{- (w^{T} x + b)}}

$y=\frac{1}{1+e^{-(w^Tx+b)}}$
该式可变化为

\ln \frac{y}{1 - y} = w^{T} x + b

$\ln{\frac{y}{1-y}}=w^Tx+b$
　　若将

y

$y$ 视为

x

$x$ 为正例的可能性，则

1 - y

$1-y$ 是其反例的可能性，两者的比值

\frac{y}{1 - y}

$\frac{y}{1-y}$ 称为”几率“(pdds)，反映了

x

$x$ 为正例的相对可能性，对几率取对数则得到”对数几率“(log odds)：

\ln \frac{y}{1 - y}

$\ln\frac{y}{1-y}$
　　

y = \frac{1}{1 + e^{- (w^{T} x + b)}}

$y=\frac{1}{1+e^{-(w^Tx+b)}}$ 实际上是用线性回归模型的预测结果去逼近真实标记的对数几率，其对应模型称为” 对数几率回归“(logistic regression)
　　至于如何确定

w

$w$ 和

b

$b$ 的值，在这里暂时不做讨论。

线性判别分析

　　性别判别分析(Linear Discriminant Analysis)简称LDA，是一种经典的线性学习方法，它的思想很简单：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。这里写图片描述
令给定的数据集 $D=\{(x_{i},y_{i})\}^{m}_{i=1}, y_{i}\in \{0,1\}$ 。
令 $X_{i}、\mu_{i}、\Sigma_{i}$ 分别代表第 $i\in\{0,1\}$ 类示例的集合、均值向量、协方差矩阵。
则两类样本在直线上的投影分别为 $w^{T}\mu_{0}$ 和 $w^{T}\mu_{1}$ 。
两类样本的协方差分别为 $w^{T}\Sigma_{0}w$ 和 $w^{T}\Sigma_{1}w$ 。
由于直线是一维空间（于直线本身考虑，直线就是一维），因此 $w^{T}\mu_{0}$ 、 $w^{T}\mu_{1}$ 、 $w^{T}\Sigma_{0}w$ 和 $w^{T}\Sigma_{1}w$ 均为实数。
　　要使同类样例的投影点尽可能接近，可以让同类样例的投影点的协方差尽可能小，及 $w^{T}\Sigma_{0}w + w^{T}\Sigma_{1}w$ 尽可能小；要使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即 $||w^{T}\mu_{0} - w^{T}\mu_{1}||^{2}_{2}$ 尽可能大。同时考虑两者，则得到最大化目标：

\begin{aligned} (3.32) & J = \frac{| | w^{T} μ_{0} - w^{T} μ_{1} | |_{2}^{2}}{w^{T} Σ_{0} w + w^{T} Σ_{1} w} \end{aligned}

$\begin{align} J=\frac{||w^{T}\mu_{0} - w^{T}\mu_{1}||^{2}_{2}}{w^{T}\Sigma_{0}w + w^{T}\Sigma_{1}w} \tag{3.32} \end{align}$
　　此处定义两个概念：
　　“ 类内散度矩阵”(within-class scatter matrix)：

S_{w} = Σ_{0} + Σ_{1} ＝ \sum_{x \in X_{0}} (x - μ_{0}) (x - μ_{0})^{T} + \sum_{x \in X_{1}} (x - μ_{1}) (x - μ_{1})^{T}

$S_{w} = \Sigma_{0}+\Sigma_{1} ＝\sum_{x\in X_{0}}(x-\mu_{0})(x-\mu_{0})^T + \sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^T$
　　“ 类间散度矩阵”(between-class scatter matrix)：
　　

S_{b} = (x - μ_{1}) (x - μ_{1})^{T}

$S_{b}=(x-\mu_{1})(x-\mu_{1})^T$
　　则公式(3.32)可以重写为

\begin{matrix} (3.35) & J = \frac{w^{T} S_{b} w}{w^{T} S_{w} w} \end{matrix}

$J=\frac{w^{T}S_{b}w}{w^{T}S_{w}w} \tag{3.35}$
　　这就是LDA欲最大化的目标，即

S_{b}

$S_{b}$ 与

S_{w}

$S_{w}$ 的“ 广义瑞利商”(generalized Rayleigh quotient)。
　　 确定 $w$ 的方法：（这里不是太懂，后续更新）
　　注意到公式(3.35)的分子和分母都是关于

w

$w$ 的二次项，分子分母会将

w

$w$ 的长度约去，因此公式(3.35)的解与长度无关，只与其方向有关。不失一般性，令

w^{T} S_{w} w = 1

$w^{T}S_{w}w=1$ ，则(3.35)等价于

\frac{m i n}{w} - w^{T} S_{b} w s . t . w^{T} S_{w} w = 1

$\frac{min}{w} - w^{T}S_{b}w \quad s.t.\;\; w^{T}S_{w}w=1$

多分类学习

　　在很多情况下，我们会利用二分类学习器来解决多分类问题。不失一般性，考虑 $N$ 个类别 $C_{1},C_{2},...,C_{N}$ ，多分类学习的基本思路是“拆解法”，即将多分类任务拆为若干个二分类任务求解。
　　最经典的拆分策略有三种：“一对一”(One vs. One，简称OvO)、“一对其余”(One vs. Rest，简称OvR)和“多对多”(Many vs. Many，简称MvM)。
　　给定数据集D
　　 $D=\{(x_{1},y_{1},(x_{2},y_{2}),...,(x_{m},y_{m}))\},y_{i}\in\{C_{1},C_{2},...,C_{N}\}$ 。
　　
　　当使用OvO拆分时，将这 $N$ 个类别两两配对，从而产生 $N(N-1)/2$ 个二分类任务。在训练阶段，OvO将为区分 $C_{i}$ 和 $C_{j}$ 训练成一个分类器，该分类器把 $D$ 中的 $C_{i}$ 类样例作为正例， $C_{j}$ 类样例作为反例。在测试阶段，新样本将同时提交给所有分类器，于是得到 $N(N-1)/2$ 个分类结果，最终把预测的最多的类别作为最终分类结果。

　　当使用OvR拆分时，在训练阶段，将一个类的样例作为正例，所有其它类的样例作为反例来训练 $N$ 个分类器。在测试阶段，新样本将同时提交给所有分类器，若仅有一个分类器预测为正类、则对应的类别标记作为最终分类结果；若有多个分类器预测为正类，则通常考虑各分类器的预测置信程度，选择置信度最大的类别标记作为分类结果。
　　这里写图片描述
　　对比OvO和OvR可以看出，OvR只需训练 $N$ 个分类器，而OvO需训练 $N(N-1)/2$ 个分类器，因此，OvO的存储开销和测试时间开销通常比OvR更大。但在训练时，OvR的每个分类器均使用全部的训练样例，OvO的每个分类器仅使用两个类的样例，因此，在类别很多时，OvO的训练时间开销通常比OvR小。但预测性能在多数情况下两者差不多。

　　MvM是每次将若干个类作为正类，若干个其它类作为反类。它的正反类构造必须有特殊的设计，不能随便选取。
　　“纠错输出码”(Error Correcting Output Codes，简称ECOC)是一种最常用的MvM技术。其工作工程主要分为两步：
　　编码：对 $N$ 个类别做 $M$ 次划分，形成一个二分类训练集，这样产生 $M$ 个训练集，可训练出 $M$ 个分类器。
　　解码： $M$ 个分类器分别对测试演变进行预测，这些预测标记组成一个编码。将这个预测标记与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。
　　类别划分通过“编码矩阵”(coding matrix)指定，常见有二元码(只有正类和反类)和三元码(正类反类和停用类)。在测试阶段，ECOC编码对分类器的错误有一定的容忍和修正能力。下图是一个示意图：
　　这里写图片描述
　　上图(a)的若取海明距离（在信息编码中，两个合法代码对应位上编码不同的位数称为码距，又称海明距离）最小，又或者取欧氏距离最小的预测结果是 $C_{3}$ 。

类别不平衡问题

　　类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。在使用OvR、MvM策略后产生的二分类任务仍可能出现类别不平衡现象。不失一般性，我们假设正类样例较少，反类样例较多。
　　从线性分类器的角度讨论，在用 $y=w^{T}x+b$ 对新样本 $x$ 进行分类时，通常将预测出来的y值与阀值比较，例如当 $y>0.5$ 时判别为正例，否则反例。故：

\begin{matrix} (3.46) & 若 \frac{y}{1 - y} > 1 则 预 测 为 正 例 \end{matrix}

$若\frac{y}{1-y}>1\;则\;预测为正例 \tag{3.46}$
　　当训练集中正、反例的数目不同时，令

m^{+}

$m^+$ 表示正例数目，

m^{-}

$m^-$ 表示反例数目，则观察几率

\frac{m^{+}}{m^{-}}

$\frac{m^+}{m^-}$ 。由于我们通常假设训练集是真实样本总体的无偏差采样，因此观察几率就代表了真实几率。当分类器的预测几率高于观察几率时，为正例的可能性大。于是：

\begin{matrix} (3.47) & 若 \frac{y}{1 - y} > \frac{m^{+}}{m^{-}} 则 预 测 为 正 例 \end{matrix}

$若\frac{y}{1-y} > \frac{m^+}{m^-}\;则\;预测为正例 \tag{3.47}$
　　但分类器做决策时是根据式(3.46)，因此需要让

\begin{matrix} (3.48) & \frac{y^{,}}{1 - y^{,}} = \frac{y}{1 - y} \times \frac{m^{-}}{m^{+}} \end{matrix}

$\frac{y^,}{1-y^,}=\frac{y}{1-y}\times \frac{m^-}{m^+} \tag{3.48}$ 使其实际上还是执行式(3.47)。这是类别不平衡学习的一个基本策略——“ 在缩放”(rescaling，亦称rebalance)。
　　在实际中，“训练集是真实样本总体的无偏采样”这个假设往往不成立，所以我们未必能有效地基于训练集观测几率来推断真实几率。现有技术大体上的三类做法：
欠采样(undersampling)：去除一部分反例，使得正例与反例数目接近。
过采样(oversampling)：增加一些正例，使得正例与反例数目接近。
阀值移动(threshold-moving)：将式(3.48)嵌入到其决策过程中。