机器学习第三章

1.线性模型的基本形式(P53)

给定d个属性描述 $x=(x_{1};x_{2};...;x_{d})$ ，预测函数如下形式

$f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$

一般向量形式

$f(x)=w^{T}x+b$ （3.2）

其中 $w=(w_{1};w_{2};...;w_{d})$ ,为列向量。w和b学得之后，就可以确定模型。

2.线性回归

给定数据集 $D=\left \{ \left ( x_{1}, y_{1}\right ),\left ( x_{2}, y_{2}\right ),...,\left ( x_{m}, y_{m}\right ) \right \}$ ，其中 $x_{i}=\left ( x_{i1}; x_{i2};...; x_{id} \right )$ ， $y_{i}\in \mathbb{R}$ .

已知属性和结果，学习w和b。

$f(x_{i})=wx_{i}+b$ ，即使得 $f(x_{i})\simeq y_{i}$

这里我们使用均方误差的方式去度量回归任务的性能，因此我们让均方误差最小化

$(w^{*},b^{*})=\arg min_{(w,b)}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2} = \arg min_{(w,b)}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ (3.4)

求解w和b使（3.4）式最小化的过程，称为线性回归模型的最小二乘“参数估计”。分别对w和b求导，

$E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2$

由上式可得到

$E_{(w,b)} = \sum_{i=1}^{m}(y_{i}-b-wx_{i})^2=\sum_{i=1}^{m}((y_{i}-b)^2+wx_{i}^2-2wx_{i}(y_{i}-b))$ (3.5.1)

$E_{(w,b)} = \sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2=\sum_{i=1}^{m}((y_{i}-wx_{i})^2+b^2-2b(y_{i}-wx_{i}))$ (3.6.1)

使用（3.5.1）式对w求导得

$\frac{\partial }{\partial w}\sum_{i=1}^{m}(y_{i}-b)^2=0$

$\frac{\partial }{\partial w}\sum_{i=1}^{m}(wx_{i})^2=\sum_{i=1}^{m}2wx_{i}^2$

$\frac{\partial }{\partial w}\sum_{i=1}^{m}2wx_{i}(y_{i}-b)=\sum_{i=1}^{m}2x_{i}(y_{i}-b)$

$\frac{\partial E(w,b)}{\partial w}=2\sum_{i=1}^{m}(wx_{i}^2-\sum_{i=1}^{m}x_{i}(y_{i}-b))$ (3.5)

使用（3.6.1）式对d求导得

$\frac{\partial }{\partial b}\sum_{i=1}^{m}(y_{i}-wx_{i})^2=0$

$\frac{\partial }{\partial b}\sum_{i=1}^{m}b^2=2mb$

$\frac{\partial }{\partial b}\sum_{i=1}^{m}2b(y_{i}-wx_{i})=\sum_{i=1}^{m}2(y_{i}-wx_{i})$

$\frac{\partial E(w,b)}{\partial b}=2\sum_{i=1}^{m}(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))$ (3.6)

令（3.5）,（3.6）为0，可得到w和b的最优解。

多元线性回归

令w'=(w;b)， $X=\begin{pmatrix} x_{11} & x_{12}& ...& x_{1d}& 1\\ x_{21} & x_{22}& ...& x_{2d}& 1\\ .& .& .& .&.\\ x_{m1} & x_{m2}& ...& x_{md}& 1\\ \end{pmatrix}=\begin{pmatrix} x_{1}^T & 1\\ x_{2}^T & 1\\ .& .\\ x_{m}^T & 1\\ \end{pmatrix}$ ，则 $f(X)=w'X$

PS:X矩阵在这里多加了一个‘1’元素，是为了与b相乘， $f(X)=\begin{pmatrix} w \\ b \end{pmatrix}\begin{pmatrix} x^T &1 \end{pmatrix}=wx^T+b$

类似于（3.4）式，有

$w^{'*}=\arg min_{(w^{'})} (y-Xw^{'})^{T}(y-Xw^{'})$

矩阵的转置乘以矩阵本身等于矩阵的平方， $A^{2}=A^{T}A$

对 $w^'$ 求导得，将上式转化为下式

$E_{w^{'}}=(y-Xw^{'})^{T}(y-Xw^{'})\\ =y^{T}(y-Xw^{'})-(Xw^{'})^T(y-Xw^{'})\\ =y^{T}y-y^{T}Xw^{'}-y(Xw^{'})^T+(Xw^{'})^TXw^{'}$

$\frac{\partial E_{w^{'}}}{\partial w^{'}}=2X^{T}(Xw^{'}-y)$ (3.10)

3.对数几率回归

对数线性模型，对（3.2）式两边取对数得

$lnf(x)=lne^{(w^{T}x+b)}$

简化为以下形式

$y=g^{-1}(w^{T}x+b)$ (3.15)

引入对数几率函数 $y=\frac{1}{1+e^{-z}}$

将对数几率函数带入（3.15）式，得

$y=\frac{1}{1+e^{-(w^{T}x+b)}}$ (3.18)

$\frac{y}{1-y}=e^{(w^Tx+b)}$ (3.18.1)

两边取对数，转化为对数线性回归模型，得

$ln\frac{y}{1-y}=w^{T}x+b$

概率模型 $ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b$

有（3.18）式转换可得，

$p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$ ，（3.23）

$p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}}$ （3.24）

对数回归模型最大化“对数似然”

$\l (w,b)= \sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)$ (3.25)

令 $\beta =(w;b)$ ， $x^{'}=(x;1)$ ，则 $w^{T}x+b$ 可简写成 $\beta ^{T}x^{'}$ .再令 $p_{1}(x^{'};\beta )=p(y=1|x^{'};\beta )$ ，

$p_{0}(x^{'};\beta )=p(y=0|x^{'};\beta )=1-p_{1}(x^{'};\beta )$ ，则式（3.25）中的似然项可重写为

$p(y_{i}|x_{i};w,b)=y_{i}p_{1}(x^{'}_{i};\beta )+(1-y_{i})p_{0}(x^{'}_{i};\beta )$ (3.26)

当 $y_{i}=1$ 或 $y_{i}=0$ ,即可获得式（3.23）和（3.24）

（3.23）式用 $\beta$ 简写， $p_{1}(x^{'}_{i};\beta )=\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}$

等式两边取对数

$lnp_{1}(x^{'}_{i};\beta )=ln\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}=lne^{\beta ^{T}x^{'}_{i}}-ln(1+e^{\beta ^{T}x^{'}_{i}})=\beta ^{T}x^{'}_{i}-ln(1+e^{\beta ^{T}x^{'}_{i}})$

（3.24）式用 $\beta$ 简写， $p_{0}(x^{'}_{i};\beta )=\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}$

等式两边取对数 $lnp_{1}(x^{'}_{i};\beta )=ln\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}=-ln(1+e^{\beta ^{T}x^{'}_{i}})=-ln(1+e^{\beta ^{T}x^{'}_{i}})$

由以上可得，我们将（3.26）带入（3.25），可得到最小化公式

$\l (\beta )= \sum_{i=1}^{m}lnp(y_{i}|x_{i};\beta)= \sum_{i=1}^{m}(-y_{i}\beta ^{T}x^{'}_{i}+ln(1+e^{\beta ^{T}x^{'}_{i}}))$ （3.27）

令 $y_{i}=1$ 或 $y_{i}=0$ ,即可得到以上推导过程，式（3.27）为最小化，（3.25）为最大化，

所以上式加了个负号。

牛顿法求最优解

（3.27）式对 $\beta$ 求一阶导，令 $f_{1}=ln(1+e^{\beta ^{T}x^{'}_{i}})$ ， $f_{2}=-y_{i}\beta ^{T}x^{'}_{i}$ ，

（PS:这里普及一个对数求导公式， $\frac{\partial ln(x)}{\partial x}=\frac{1}{x}$ ， $\frac{\partial ln(x)}{\partial \beta }=\frac{1}{x}\frac{\partial x}{\partial \beta }$ ）

由普及公式可知

$\frac{\partial f_{1}}{\partial \beta } =\frac{x^{'}_{i}e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}$ ， $\frac{\partial f_{2}}{\partial \beta }=-y_{i}x^{'}_{i}$ （3.30.1）

$\frac{\partial \l (\beta )}{\partial \beta }=\sum_{i=1}^{m}(-y_{i}x^{'}_{i}+\frac{x^{'}_{i}e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}})\\=-\sum_{i=1}^{m}x^{'}_{i}(y_{i}-\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}})=-\sum_{i=1}^{m}x^{'}_{i}(y_{i}-p_{1}(x^{'}_{i};\beta ))$ (3.30)

利用式（3.30）进行求导，可得式（3.27）的二阶导，先对式（3.30.1）分别进行求导，

先令 $F_{1}$ 为 $\frac{\partial f_{1}}{\partial \beta }$ ， $F_{2}$ 为 $\frac{\partial f_{2}}{\partial \beta }$

（PS：分式求导公式，已知 $F(x)=\frac{x}{1+x}$ ，令 $g(x)=x$ ， $f(x)=1+x$ ，则 $\frac{\partial F(x)}{\partial x} =\frac{g(x)\frac{\partial f(x)}{\partial x}-f(x)\frac{\partial g(x)}{\partial x}}{f(x)^{2}}$ ）

由已知公式，得

$\frac{\partial F_{1}}{\partial \beta }=\frac{x^{'}_{i}e^{\beta ^{T}x^{'}_{i}}x^{'T}_{i}e^{\beta ^{T}x^{'}_{i}}-(1+e^{\beta ^{T}x^{'}_{i}})x^{'}_{i}x^{'T}_{i}e^{\beta ^{T}x^{'}_{i}}}{(1+e^{\beta ^{T}x^{'}_{i}})^{2}}\\=-\frac{x^{'}_{i}x^{'T}_{i}e^{\beta ^{T}x^{'}_{i}}}{(1+e^{\beta ^{T}x^{'}_{i}})^{2}}=-x^{'}_{i}x^{'T}_{i}p_{1}p_{0}=-x^{'}_{i}x^{'T}_{i}p_{1}(x^{'}_{i};\beta )(1-p_{1}(x^{'}_{i};\beta ))$

$\frac{\partial F_{2}}{\partial \beta }=0$

由以上推导可得二阶导为

$\frac{\partial^2 \l (\beta )}{\partial \beta\partial\beta^{T}}=\sum_{i=1}^{m}x^{'}_{i}x^{'T}_{i}p_{1}(x^{'}_{i};\beta )(1-p_{1}(x^{'}_{i};\beta ))$

用牛顿法进行多次迭代后，得到以下公式

$\beta ^{t+1}=\beta ^{t}-(\frac{\partial^2 l (\beta )}{\partial \beta \partial \beta^{T}})^{-1}\frac{\partial l (\beta )}{\partial \beta }$

可以利用此公式进行多次循环，得出w和b

（公式写得有点多，有出错的地方，请指正。）

猜你喜欢