机器学习第三章

1.线性模型的基本形式(P53)

       给定d个属性描述x=(x_{1};x_{2};...;x_{d}),预测函数如下形式

        f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b

一般向量形式

       f(x)=w^{T}x+b                                                                            (3.2)

其中w=(w_{1};w_{2};...;w_{d}),为列向量。w和b学得之后,就可以确定模型。

2.线性回归

        给定数据集D=\left \{ \left ( x_{1}, y_{1}\right ),\left ( x_{2}, y_{2}\right ),...,\left ( x_{m}, y_{m}\right ) \right \},其中x_{i}=\left ( x_{i1}; x_{i2};...; x_{id} \right )y_{i}\in \mathbb{R}.

已知属性和结果,学习w和b。

       f(x_{i})=wx_{i}+b,即使得f(x_{i})\simeq y_{i}

       这里我们使用均方误差的方式去度量回归任务的性能,因此我们让均方误差最小化

        (w^{*},b^{*})=\arg min_{(w,b)}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2} = \arg min_{(w,b)}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}        (3.4)

        求解w和b使(3.4)式最小化的过程,称为线性回归模型的最小二乘“参数估计”。分别对w和b求导,

                                   E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2

         由上式可得到

                     E_{(w,b)} = \sum_{i=1}^{m}(y_{i}-b-wx_{i})^2=\sum_{i=1}^{m}((y_{i}-b)^2+wx_{i}^2-2wx_{i}(y_{i}-b))    (3.5.1)

                    E_{(w,b)} = \sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2=\sum_{i=1}^{m}((y_{i}-wx_{i})^2+b^2-2b(y_{i}-wx_{i}))    (3.6.1)

           使用(3.5.1)式对w求导得

                     \frac{\partial }{\partial w}\sum_{i=1}^{m}(y_{i}-b)^2=0

                     \frac{\partial }{\partial w}\sum_{i=1}^{m}(wx_{i})^2=\sum_{i=1}^{m}2wx_{i}^2

                     \frac{\partial }{\partial w}\sum_{i=1}^{m}2wx_{i}(y_{i}-b)=\sum_{i=1}^{m}2x_{i}(y_{i}-b)

                    \frac{\partial E(w,b)}{\partial w}=2\sum_{i=1}^{m}(wx_{i}^2-\sum_{i=1}^{m}x_{i}(y_{i}-b))                                                  (3.5)

        使用(3.6.1)式对d求导得

                  \frac{\partial }{\partial b}\sum_{i=1}^{m}(y_{i}-wx_{i})^2=0

                \frac{\partial }{\partial b}\sum_{i=1}^{m}b^2=2mb

               \frac{\partial }{\partial b}\sum_{i=1}^{m}2b(y_{i}-wx_{i})=\sum_{i=1}^{m}2(y_{i}-wx_{i})

              \frac{\partial E(w,b)}{\partial b}=2\sum_{i=1}^{m}(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))                                                            (3.6)

          令(3.5),(3.6)为0,可得到w和b的最优解。

  多元线性回归

           令w'=(w;b),X=\begin{pmatrix} x_{11} & x_{12}& ...& x_{1d}& 1\\ x_{21} & x_{22}& ...& x_{2d}& 1\\ .& .& .& .&.\\ x_{m1} & x_{m2}& ...& x_{md}& 1\\ \end{pmatrix}=\begin{pmatrix} x_{1}^T & 1\\ x_{2}^T & 1\\ .& .\\ x_{m}^T & 1\\ \end{pmatrix},则f(X)=w'X

            PS:X矩阵在这里多加了一个‘1’元素,是为了与b相乘,f(X)=\begin{pmatrix} w \\ b \end{pmatrix}\begin{pmatrix} x^T &1 \end{pmatrix}=wx^T+b

           类似于(3.4)式,有

                                        w^{'*}=\arg min_{(w^{'})} (y-Xw^{'})^{T}(y-Xw^{'})                

          矩阵的转置乘以矩阵本身等于矩阵的平方,A^{2}=A^{T}A

          对w^'求导得,将上式转化为下式

                             E_{w^{'}}=(y-Xw^{'})^{T}(y-Xw^{'})\\ =y^{T}(y-Xw^{'})-(Xw^{'})^T(y-Xw^{'})\\ =y^{T}y-y^{T}Xw^{'}-y(Xw^{'})^T+(Xw^{'})^TXw^{'}

                           \frac{\partial E_{w^{'}}}{\partial w^{'}}=2X^{T}(Xw^{'}-y)                                                      (3.10)

3.对数几率回归

       对数线性模型,对(3.2)式两边取对数得

                                           lnf(x)=lne^{(w^{T}x+b)}

           简化为以下形式

                                          y=g^{-1}(w^{T}x+b)                                                  (3.15)

         引入对数几率函数      y=\frac{1}{1+e^{-z}}

         将对数几率函数带入(3.15)式,得

                                y=\frac{1}{1+e^{-(w^{T}x+b)}}                                            (3.18)

                                \frac{y}{1-y}=e^{(w^Tx+b)}                                               (3.18.1)

          两边取对数,转化为对数线性回归模型,得

                             ln\frac{y}{1-y}=w^{T}x+b

          概率模型           ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b

          有(3.18)式转换可得,

                           p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}},                                             (3.23)

                           p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}}                   (3.24)

         对数回归模型最大化“对数似然”

                          \l (w,b)= \sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)                                                      (3.25)

         令\beta =(w;b)x^{'}=(x;1),则w^{T}x+b可简写成\beta ^{T}x^{'}.再令p_{1}(x^{'};\beta )=p(y=1|x^{'};\beta )

 p_{0}(x^{'};\beta )=p(y=0|x^{'};\beta )=1-p_{1}(x^{'};\beta ),则式(3.25)中的似然项可重写为

                              p(y_{i}|x_{i};w,b)=y_{i}p_{1}(x^{'}_{i};\beta )+(1-y_{i})p_{0}(x^{'}_{i};\beta )                      (3.26)

      y_{i}=1y_{i}=0,即可获得式(3.23)和(3.24)

          (3.23)式用\beta简写,    p_{1}(x^{'}_{i};\beta )=\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}

           等式两边取对数

                     lnp_{1}(x^{'}_{i};\beta )=ln\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}=lne^{\beta ^{T}x^{'}_{i}}-ln(1+e^{\beta ^{T}x^{'}_{i}})=\beta ^{T}x^{'}_{i}-ln(1+e^{\beta ^{T}x^{'}_{i}})

           (3.24)式用\beta简写, p_{0}(x^{'}_{i};\beta )=\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}

            等式两边取对数lnp_{1}(x^{'}_{i};\beta )=ln\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}=-ln(1+e^{\beta ^{T}x^{'}_{i}})=-ln(1+e^{\beta ^{T}x^{'}_{i}})

      由以上可得,我们将(3.26)带入(3.25),可得到最小化公式

                           \l (\beta )= \sum_{i=1}^{m}lnp(y_{i}|x_{i};\beta)= \sum_{i=1}^{m}(-y_{i}\beta ^{T}x^{'}_{i}+ln(1+e^{\beta ^{T}x^{'}_{i}}))           (3.27)

       y_{i}=1y_{i}=0,即可得到以上推导过程,式(3.27)为最小化,(3.25)为最大化,

所以上式加了个负号。

       牛顿法求最优解

       (3.27)式对\beta求一阶导,令f_{1}=ln(1+e^{\beta ^{T}x^{'}_{i}})f_{2}=-y_{i}\beta ^{T}x^{'}_{i}

        (PS:这里普及一个对数求导公式,\frac{\partial ln(x)}{\partial x}=\frac{1}{x}\frac{\partial ln(x)}{\partial \beta }=\frac{1}{x}\frac{\partial x}{\partial \beta }

         由普及公式可知

                                 \frac{\partial f_{1}}{\partial \beta } =\frac{x^{'}_{i}e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}\frac{\partial f_{2}}{\partial \beta }=-y_{i}x^{'}_{i}                                             (3.30.1)

                          \frac{\partial \l (\beta )}{\partial \beta }=\sum_{i=1}^{m}(-y_{i}x^{'}_{i}+\frac{x^{'}_{i}e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}})\\=-\sum_{i=1}^{m}x^{'}_{i}(y_{i}-\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}})=-\sum_{i=1}^{m}x^{'}_{i}(y_{i}-p_{1}(x^{'}_{i};\beta ))                 (3.30)

       利用式(3.30)进行求导,可得式(3.27)的二阶导,先对式(3.30.1)分别进行求导,

先令F_{1} 为\frac{\partial f_{1}}{\partial \beta }F_{2}\frac{\partial f_{2}}{\partial \beta }

       (PS:分式求导公式,已知F(x)=\frac{x}{1+x},令g(x)=xf(x)=1+x,则\frac{\partial F(x)}{\partial x} =\frac{g(x)\frac{\partial f(x)}{\partial x}-f(x)\frac{\partial g(x)}{\partial x}}{f(x)^{2}})                       

       由已知公式,得

                       \frac{\partial F_{1}}{\partial \beta }=\frac{x^{'}_{i}e^{\beta ^{T}x^{'}_{i}}x^{'T}_{i}e^{\beta ^{T}x^{'}_{i}}-(1+e^{\beta ^{T}x^{'}_{i}})x^{'}_{i}x^{'T}_{i}e^{\beta ^{T}x^{'}_{i}}}{(1+e^{\beta ^{T}x^{'}_{i}})^{2}}\\=-\frac{x^{'}_{i}x^{'T}_{i}e^{\beta ^{T}x^{'}_{i}}}{(1+e^{\beta ^{T}x^{'}_{i}})^{2}}=-x^{'}_{i}x^{'T}_{i}p_{1}p_{0}=-x^{'}_{i}x^{'T}_{i}p_{1}(x^{'}_{i};\beta )(1-p_{1}(x^{'}_{i};\beta ))

                            \frac{\partial F_{2}}{\partial \beta }=0

      由以上推导可得二阶导为

                          \frac{\partial^2 \l (\beta )}{\partial \beta\partial\beta^{T}}=\sum_{i=1}^{m}x^{'}_{i}x^{'T}_{i}p_{1}(x^{'}_{i};\beta )(1-p_{1}(x^{'}_{i};\beta ))

          用牛顿法进行多次迭代后,得到以下公式

                         \beta ^{t+1}=\beta ^{t}-(\frac{\partial^2 l (\beta )}{\partial \beta \partial \beta^{T}})^{-1}\frac{\partial l (\beta )}{\partial \beta }

         可以利用此公式进行多次循环,得出w和b

      (公式写得有点多,有出错的地方,请指正。)

                          

                          

                                

                       

         

猜你喜欢

转载自blog.csdn.net/Smile_Smilling/article/details/82817277