西瓜书读书笔记(三)-线性模型

全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴

一、基本形式

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,我们一般用向量的形式来表示, f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
因为 w w w直观地表达了各属性在预测中地重要性,因此线性模型有很好地可解释性。

二、线性回归

样本可能由多个属性描述,此时我们试图学得 f ( x i ) = w T x i + b , 使 得 f ( x i ) ≈ y i f(x_i)=w^Tx_i+b,使得f(x_i)\approx y_i f(xi)=wTxi+b使f(xi)yi这称为“多元线性回归”。

假设我们认为示例所对应的输 出标记是在指数尺度上 变化,那就可将输出标记的对数作为线性模型逼近的目 标,即 ln ⁡ y = w T x + b \ln y=w^Tx+b lny=wTx+b这就是 “ 对数线性回归” (log-linear regression),它实际上是在试图让 e w T x + b e^{w^Tx+b} ewTx+b逼近 y y y

更一般地,可以考虑单调可微函数 g ( ⋅ ) g(\cdot) g(),令 y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g1(wTx+b)这样得到的模型称为“广义线性模型”(generalized linear model),其中函数 g ( ⋅ ) g(\cdot) g()称为“联系函数”(link function)。显然,对数线性回归是广义线性模型在 g ( ⋅ ) = ln ⁡ ( ⋅ ) g(\cdot) = \ln(\cdot) g()=ln()时的特例.

三、对数几率回归

单位阶跃函数不连续,因此不能直接找到这样的 g ( ⋅ ) g(\cdot) g()。我们就找到能在一定程度上近似单位阶跃函数的 “ 替代函数” (surrogate function),并希望它单调可微.对数几率函数(logistic function)正是这样一个常用的替代函数: y = 1 1 + e − z = 1 1 + e − ( w T x + b ) y=\frac1{1+e^{-z}}=\frac1{1+e^{-(w^Tx+b)}} y=1+ez1=1+e(wTx+b)1
l n y 1 − y = w T x + b ln\frac{y}{1-y}=w^Tx+b ln1yy=wTx+b

我们可以用极大似然法来估计 w w w b b b

四、线性判别分析

线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法。类似于给数据降维,并且是类间大,类内小

LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、 异类样例的投影点尽可能远离;在对新样 本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新 样本的类别。

可以查看这里的这篇文章:白板推导系列笔记(四)-线性分类

五、多分类学习

多分类学习的基本思路是“拆解法”即将多分类任务拆为若干个二分类任务求解。

可以看看常用的MvM技术:“纠错输出码”(ECOC)。

六、类别不平衡问题

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。例如有998个反例,但正例只有2个,那么学 习方法只需返回一个永远将新样本预测为反例的学习器,就能达到99.8%的精度;然而这样的学习器往往没有价值,因为它不能预测出任何正例。

分类器的决策规则为:若 y 1 − y > 1 \frac y{1-y}>1 1yy>1则预测为正例。

当训练集中正、反例的数目不同时,我们令 m + m^+ m+表示正例数目, m − m^- m表示反例数目。则观测几率是 m + m − \frac{m^+}{m^-} mm+,于我们通常假设训练集是真实样本总体的无偏采样,因此观测几率就代表了真实几率。于是,只要分类器的预测几率高于观测几率就应判定为正例,即:若 y 1 − y > m + m − \frac y{1-y}>\frac{m^+}{m^-} 1yy>mm+则预测为正例。

因为我们的分类器是根据它的决策规则来进行决策的,所以我们需要对其预测值进行调整,所以我们要令, y ′ 1 − y ′ = y 1 − y ∗ m + m − \frac {y'}{1-y'}=\frac y{1-y}*\frac{m^+}{m^-} 1yy=1yymm+
所以我们要进行一个基本的策略——“再缩放”。

  1. 直接对直接对训练集里的反类样例进行 “欠采样 ” (undersampling),即去除一些反倒使得正、 反例数目接近,然后再进行学习;
  2. 对训练集里的正类样例进行 “过采样” (oversampling),即增加一些正例使得正、反例数目接近,然后再进行学习;
  3. 直接基于原始训练集进行学习,但在用 训练好的分类器进行预测时,将上式嵌入到其决策过程中,称为“阈值移动”(threshold-moving)。

“再缩放” 也是 “代价敏感学习” (cost-sensitive learning)的基础。

下一章传送门:西瓜书读书笔记(四)-决策树

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/112755015
今日推荐