第3章 线性模型
线性模型(Linear Model)是最基本,最简单的模型,而这个世界是复杂,非线性的,我们可以基于线性模型构造非线性模型(Nonlinear Model)。
线性模型层级结构
高维映射非线性模型
3.1 基本形式
f(x)=w1x1+w2x2+…+wdxd+b=wTx+bw和b确定,模型确定。
3.2 广义线性模型
更一般地,考虑单调可微函数g(⋅),令y=g−1(wTx+b)
其中函数
g(⋅)称为联系函数。根据不同的
g(⋅),构造不同的非线性模型。
3.3 线性回归
f(xi)=wxi+b,使得f(xi)≃yi
样本由d个属性描述,我们试图获取样本的类别
yi,这称为多元线性回归(Multivariate Linear Regression)。
衡量的方法为均方误差(Square Loss),对应欧氏距离(
L2范式)。
采用最小二乘法(Least Square Method),求得
w和b。
$$ \hat{\boldsymbol{w}}^{*}=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} \\ f\left(\hat{\boldsymbol{x}}_{i}\right)=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} $$ 由于$\mathbf{X}^{\mathrm{T}} \mathbf{X}$通常不是满秩矩阵,可解出多个的$\hat{\boldsymbol{w}}^{*}$,引入**正则化**(Regularization)项,决定**学习算法的归纳偏好**。
3.3.1 对数线性回归
输出标记在指数尺度上变化
y=1+e−z1=1+e−(wTx+b)1ln1−yy=wTx+b
若将y视为样本x作为正例的可能性,则1-y是其反例的可能性,而二者比值
1−yy称为几率(odds),取对数则得到对数几率
ln1−yy(log odds,logit)。
将y视为后验概率估计
p(y=1∣x),再通过极大似然法(Maximum Likelihood Method)
ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b)
这是个高阶可导连续凸函数,可以使用经典数值优化算法:梯度下降法(Gradient Descent Method),牛顿法(Newton Method)等求其最优解。
3.3.2 对数几率回归
3.3.3 线性判别分析
3.4 多分类学习
3.4.1 OvO
3.4.2 OvR
3.4.3 MvM
最常用MvM技术:纠错验证码(Error Correcting Output Codes, EOC)。
3.5 类别不平衡问题
3.6 阅读材料
3.6.1 稀疏表示
3.6.2 代价敏感
3.6.3 多标记学习