机器学习笔记一：线性回归

“回归”一词的来历：

　　原本是用来根据双亲的身高预测其一下代的身高，如果双亲高度高于平均值，其子女身高也倾向于比平均值高，但低于双亲身高。而双亲身高低于平均值的，子女身高倾向于比均值低，但是高于双亲身高。预测值的两类都倾向于回归到均值，而不是与父母身高相同。Galton在多项研究中都注意到了这个现象。后来用这种方式来寻找一堆测量数据点的数学关系，而不是均值回归，但这种方法仍被称为回归。虽然这个单词与数值预测没有关系。

线性回归：

　　简单的理解就是寻找一条直线或曲线来拟合数据点。
　　假设我们有一个数据集 $D =\{ (x^1,y^1),(x^2,y^2)...(x^m,y^m) \}$ （m =样本数量）， $（x_i,y_i）$ 是数据集中第 $i$ 样本。 $x$ 是该样本的特征集 $x=(x_1,x_2...x_n)$ $(n=特征数量)$ $x \in \Bbb R^n$ ，y是该样本的值 $y \in \Bbb R$
那么用来进行学习的假设函数：

　　　　　　 $f(x) = w^Tx + b = w_1x_1+w_2x_2...+w_nx_n+b$

　　(在ANA的机器学习课程里直接用 $\theta$ 来表示参数 $w,b$ , $\theta是一个n+1维的向量$ : $f(x)=\theta_0+\theta_1x +\theta_2。。。\theta_n = \theta^Tx$ )*

　　接下来寻找最佳拟合线：（调参）
　　首先，评估一个模型好坏，要先看预测值 $f(x)$ 与真实值 $y$ 之间差，误差越小模型预测准确度越高。线性回归里，即数据点到拟合线距离和最小。一般用 $SSE或R^2 score$ 来评估线性回归模型的表现。由此得到代价函数，而寻找最优拟合线的过程即 $minJ(\theta)$ .
　　
　　　　　　　

J (θ) = 1 m \sum i = 1 n (f (x i) - y i) 2

$J(\theta) = \frac1m\sum_{i=1}^n(f(x^i)-y^i)^2$
　　
　　　在ANA的课程里，采用了梯度下降法来寻找最优参数解。
　　算法先要初使化赋值如图红圈位置，我们的目的是使其下降到低部最低值。通过对代价函数求导的方式来确定移动的方向，这里切线的斜率就是这个点的导数，而下降多少用

α $\alpha$ 来控制，

α $\alpha$ 称为learning rate。如果

α $\alpha$ 过大，可能会错过最低值而无法收敛。如果过小，过程会很慢。下降的过程重复下列公式直到收敛到低部某个最小值。在更新

θ $\theta$ 时，需要同步更新所有

θ $\theta$ 值。
　　
　　　　　　　

θj=θj−α∂∂θjJ(θ0,θ1)(j:特征索引值） $\theta_j = \theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)(j:特征索引值）$
　　　　　　　
　　图片来自cousera上斯坦福机器学习课程

　　　　　　　　　　（图片和公式来自cousera上斯坦福机器学习课程）

注：由图可知，不同初始点下降的最终位置也不同，这代表梯度下降有可能是局部最小值而不是全局。

　　梯度下降应用到线性回归上，代入公式：

{θ 0 = θ 0 - α 1 m \sum i = 1 m (f θ (x i) - y i)

$\{ 　\theta_0 = \theta_0-\alpha\frac1m\sum_{i=1}^m(f_\theta(x^i)-y^i)$ 　

θ 1 = θ 1 - α 1 m \sum i = 1 m (f θ (x i) - y i) x i}

$\theta_1 = \theta_1-\alpha\frac1m\sum_{i=1}^m(f_\theta(x^i)-y^i)x^i　\}$
　这里分开了

θ0和θ1 $\theta_0和\theta_1$ ，第二项乘

xi $x^i$ 是求偏导的结果。因为

J $J$ 本身是一个二次凸函数，结果最终会收敛于全局最低点。（注:需补知识点：凸函数）　
　以下是来自c站ANA课程的对

J(θ) $J(\theta)$ 单个样本的求导过程。

　
　凸函数：对区间[a,b]上定义的函数，如果它对区间的任意两点 $x_1,x_2$ 均满有 $f(\frac{x_1+x_2}{2} )\le\frac{f(x_1)+f(x_2)}{2}$ , 则称 $f$ 为区间[a,b]上的凸函数。对实数集上的函数，可通过二阶求导来判断：若结果在区间上非负，则为凸函数，为0则为严格凸函数。（引自周志华《机器学习》）

另一种最小化 $\theta or (w,b)$ 的方法叫最小二乘法（不仅限于线性回归）。（这部分笔记是汇总优达课程和机器学习书）

　　求解

m i n E (w, b) = \sum i = 1 m (y i - f (x) i) 2 = \sum i = 1 m (y i - w x i - b) 2

$minE(w,b)=\sum_{i=1}^m(y^i-f(x)^i)^2=\sum_{i=1}^m(y^i-wx^i-b)^2$
　　如果用向量和矩阵分别表示参数和数据集，方程可表示为：
　　
　　　　　　

Ew^=(y−Xw^)T(y−Xw^) $E_\hat w= (y - X\hat w)^T(y-X\hat w)$
　　
　　对

w^ $\hat w$ 求导为零后可得：
　　
　　　　　　

w^=(XTX)−1XTy $\hat w = (X^TX)^{-1}X^Ty$