一、基本形式

线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，我们一般用向量的形式来表示， $f(x)=w^Tx+b$
因为 $w$ 直观地表达了各属性在预测中地重要性，因此线性模型有很好地可解释性。

二、线性回归

样本可能由多个属性描述，此时我们试图学得 $f(x_i)=w^Tx_i+b，使得f(x_i)\approx y_i$ 这称为“多元线性回归”。

假设我们认为示例所对应的输出标记是在指数尺度上变化，那就可将输出标记的对数作为线性模型逼近的目标，即 $ln y=w^Tx+b$ 这就是 “ 对数线性回归” (log-linear regression），它实际上是在试图让 $e^{w^Tx+b}$ 逼近 $y$ 。

更一般地，可以考虑单调可微函数 $g(\cdot)$ ，令 $y=g^{-1}(w^Tx+b)$ 这样得到的模型称为“广义线性模型”（generalized linear model），其中函数 $g(\cdot)$ 称为“联系函数”（link function）。显然，对数线性回归是广义线性模型在 $g(\cdot) = \ln(\cdot)$ 时的特例．

三、对数几率回归

单位阶跃函数不连续，因此不能直接找到这样的 $g(\cdot)$ 。我们就找到能在一定程度上近似单位阶跃函数的 “ 替代函数” （surrogate function），并希望它单调可微．对数几率函数（logistic function）正是这样一个常用的替代函数： $y=\frac1{1+e^{-z}}=\frac1{1+e^{-(w^Tx+b)}}$
$ln\frac{y}{1-y}=w^Tx+b$

我们可以用极大似然法来估计 $w$ 和 $b$

四、线性判别分析

线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的线性学习方法。类似于给数据降维，并且是类间大，类内小。

LDA的思想非常朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

可以查看这里的这篇文章：白板推导系列笔记（四）-线性分类

五、多分类学习

多分类学习的基本思路是“拆解法”即将多分类任务拆为若干个二分类任务求解。

可以看看常用的MvM技术：“纠错输出码”（ECOC）。

六、类别不平衡问题

类别不平衡（class-imbalance）就是指分类任务中不同类别的训练样例数目差别很大的情况。例如有998个反例，但正例只有2个，那么学习方法只需返回一个永远将新样本预测为反例的学习器，就能达到99.8%的精度；然而这样的学习器往往没有价值，因为它不能预测出任何正例。

分类器的决策规则为：若 $\frac y{1-y}>1$ 则预测为正例。

当训练集中正、反例的数目不同时，我们令 $m^+$ 表示正例数目， $m^-$ 表示反例数目。则观测几率是 $\frac{m^+}{m^-}$ ，于我们通常假设训练集是真实样本总体的无偏采样，因此观测几率就代表了真实几率。于是，只要分类器的预测几率高于观测几率就应判定为正例，即：若 $\frac y{1-y}>\frac{m^+}{m^-}$ 则预测为正例。

因为我们的分类器是根据它的决策规则来进行决策的，所以我们需要对其预测值进行调整，所以我们要令， $\frac {y'}{1-y'}=\frac y{1-y}*\frac{m^+}{m^-}$
所以我们要进行一个基本的策略——“再缩放”。

直接对直接对训练集里的反类样例进行 “欠采样 ” （undersampling），即去除一些反倒使得正、反例数目接近，然后再进行学习；
对训练集里的正类样例进行 “过采样” （oversampling），即增加一些正例使得正、反例数目接近，然后再进行学习；
直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将上式嵌入到其决策过程中，称为“阈值移动”（threshold-moving）。

“再缩放” 也是 “代价敏感学习” （cost-sensitive learning）的基础。

下一章传送门：西瓜书读书笔记（四）-决策树

西瓜书读书笔记（三）-线性模型