【西瓜书笔记】——第三章：线性模型

1、基本形式

定义：最简单的线性函数为：
$f(x) = wx + b$
将其扩展为矩阵形式，其中 $x_i=(x_{i1},x_{i2},x_{i3}, …, x_{ij})^T$ 表示对于单个样本xi，它拥有j个不同的特征，而针对每个特征的重要度不同，自然有权重矩阵：
$w=(w_1,w_2,w_3, …, w_j)$
因此 wx 结果为一个数，再加上b得到f(xi)的评判结果。

2、线性回归

目的是通过线性模型将离散属性通过连续化转化为连续值，在线性模型中确定w和b的值是关键，因此需要衡量f(x)的预估结果于y真实值之间的差别。均方误差法通常被用来进行性能度量，视图让均方误差最小化来求解最合适的w个b值。
$(w^*, b^*) = argmin{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2$
实为欧式距离计算公式或“最小二乘法”。几何意义为找一条直线使所有样本到直线上的欧式距离之和最小。
令
$E_{(w,b)}=\sum\nolimits_{i=1}^n (y_i-wx_i-b)^2$
因此，求解w和b使得E最小化的过程，称为线性回归模型的最小二乘参数估计。可以利用求导的方式解得w和b（结果见书p54页）。

对于多元线性回归，将原式改为矩阵形式可得：
$f(x_i) = w^Tx_i+b 即：\hat{w}^*=argmin_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w}) 同样的，令E为0，对w求导可知：当X^TX为满秩矩阵或正定矩阵时，令E为0可得\hat{w}^*=(X^TX)^{-1}X^Ty$
但是现实任务种X^TX往往不是满秩矩阵，此时可解出多个w，它们都能使均方误差最小化，因此选择哪一个解作为输出将由学习算法的归纳偏好决定，常见的作法是引用正则化。

2.1 正则化

向模型加入某些规则，加入先验知识缩小解空间，减小求出错误解的可能性。将所用哟䣌数学知识数字化，告诉模型，对代价函数来说就是加入对模型“好坏”的评判标准。

数学解释
1、通俗定义
就是给平面不可约代数曲线以某种形式的全纯参数表示。
即
$对于PC^2中的不可约代数曲线C，寻找一个紧Riemann面C^*和一个全纯映射σ:C^*→PC^2,使得σ(C^*)=C$

2、严格定义
设C是不可约平面代数曲线，S是C的奇点的集合。
$如果存在紧Riemann面C^*及全纯映射σ:C^*→PC^2$
使得
$σ(C^*)=C$
$σ^{-1}(S)是有限点集$
$σ: \frac{C^*}{σ^{-1}}$
(S)→C\S是一对一的映射
则称(C*,σ)为C的正则化。不至于混淆的时候，也可以称C*为C的正则化。正则化的做法，实际上是在不可约平面代数曲线的奇点处，把具有不同切线的曲线分支分开，从而消除这种奇异性。

2.2 从狭义模型到广义

线性模型虽然简单，但是却又很多的变换形式。常用的指数尺度变化模型为：
$y=w^Tx+b$
也可以利用对数的形式将线性回归模型的预测值与真是标记联系起来：
$lny=w^Tx+b，其本质上也是线性回归，只是将y转化为了y=e^{w^Tx+b}的形式$
为了更一般的考虑，也可以利用单调可微函数g(·)：
$y=g^{-1}(w^Tx+b)$
这个被称为广义线性模型，其中g(·)被称为“联系函数”，很显然，ln(·)是g(·)的一个特例。

3、对数几率回归

在处理分类任务的情况时，只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。

3.1 单位阶跃函数

考虑二分类任务，其输出标记y∈{0, 1}，而线性回归模型产生的预测值z=wx+b是实值，于时，我们需要将实值z转换为0/1值。最理想的方式就是单位阶跃函数。
$y = \begin{cases} 0, z<0;\\ 0.5, z=0;\\ 1, z>0 \end{cases}$
若预测值z大于0则判断为正例，小于零则为反例，预测值为临界值则可以任意判别，这也被称为Heaviside函数。

但是阶跃函数不连续，我们希望找到一个一定程度上近似单位阶跃函数的替代函数：
$y = \frac{1}{1+e^{-z}}$
并希望它可以微调，这便是更多情况下选用的对数几率函数。

3.2对数几率函数

对数几率函数就是我们常说的Sigmoid函数种的一种，它将z值转化为一个接近0或1的y值，并且其输出值在z=0附近变化很显著。
将z=

扫描二维码关注公众号，回复： 3411347 查看本文章