西瓜书第3章公式推导<一>

3.1线性回归公式推导

假设预测值为 $f(x_i) = wx_i + b$ ，使得 $f(x_i)$ 逼近 $y_i$ 。

则可通过将 $y_i$ - $f(x_i)$ 取最小值，即导数为0，求出w、b。

$w_*$ ， $b_*$ 表示w和b的解

\bar{x} = \frac{1}{m} \sum_{i = 1}^{m} x_{i}

$\bar x=\frac{1}{m}\sum _{i=1}^mx_i$

\bar{y} = \frac{1}{m} \sum_{i = 1}^{m} y_{i}

$\bar y=\frac{1}{m}\sum _{i=1}^my_i$
公式推导：

\begin{aligned} (132) & (w^{*}, b^{*}) = & a r g m i n_{(w, b)} \sum_{i = 1}^{n} ((f (x_{i}) - y_{i})^{2}) \\ (133) & = & a r g m i n_{(w, b)} \sum_{i = 1}^{n} (y_{i} - w x_{i} + b)^{2} \end{aligned}

$\begin{align} (w^*,b^*) =& argmin_{(w,b)}\sum_ {i=1} ^n((f(x_i) - y_i)^2)\\ =& argmin_ {(w,b)}\sum_ {i=1} ^n(y_i-wx_i+b)^2 \end{align}$

令 E (w, b) = a r g m i n_{(w, b)} \sum_{i = 1}^{n} (y_{i} - w x_{i} + b)^{2}

$令E(w,b)=argmin_ {(w,b)}\sum_ {i=1} ^n(y_i-wx_i+b)^2$

\begin{aligned} (134) & \frac{\partial E}{\partial b} = & 2 (m b - \sum_{i = 1}^{m} (y_{i} - w x_{i})) = 0 \\ (135) & b = & \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - w x_{i}) \end{aligned}

$\begin{align} \frac{\partial E}{\partial b} =& 2(mb-\sum_ {i=1} ^m(y_i-wx_i))=0 \\ b =& \frac{1}{m}\sum_ {i=1} ^m(y_i-wx_i) \end{align}$

\frac{\partial E}{\partial w} = 2 (w \sum_{i = 1}^{m} (x_{i})^{2} - \sum_{i = 1}^{m} (y_{i} - b) x_{i}) = 0

$\frac{\partial E}{\partial w}=2(w \sum_ {i=1} ^m(x_i)^2-\sum _{i=1} ^m(y_i-b)x_i)=0$

\begin{aligned} (259) & w \sum_{i = 1}^{m} (x_{i})^{2} - \sum_{i = 1}^{m} (y_{i} - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - w x_{i})) x_{i} = & 0 \\ (260) & w \sum_{i = 1}^{m} (x_{i})^{2} - \sum_{i = 1}^{m} x_{i} y_{i} + \sum_{i = 1}^{m} x_{i} \sum_{i = 1}^{m} \frac{1}{m} (y_{i} - w x_{i}) = & 0 \\ (261) & w \sum_{i = 1}^{m} (x_{i})^{2} - \sum_{i = 1}^{m} x_{i} y_{i} + \sum_{i = 1}^{m} (x_{i} \bar{y} - w \bar{x} x_{i}) = & 0 \end{aligned}

$\begin{align} w\sum_ {i=1} ^m(x_i)^2 -\sum_ {i=1} ^m(y_i-\frac{1}{m}\sum_ {i=1} ^m(y_i-wx_i))x_i =& 0 \\ w\sum_ {i=1} ^m(x_i)^2 -\sum_ {i=1} ^mx_iy_i+\sum_ {i=1} ^mx_i\sum_ {i=1} ^m\frac{1}{m}(y_i-wx_i) =& 0 \\ w\sum_ {i=1} ^m(x_i)^2 -\sum_ {i=1} ^mx_iy_i+\sum_ {i=1} ^m(x_i\bar y-w\bar xx_i) =& 0 \end{align}$

w \sum_{i = 1}^{m} (x_{i}^{2} - \bar{x} x_{i}) = \sum_{i = 1}^{m} x_{i} y_{i} - \sum_{i = 1}^{m} y_{i} \bar{x}

$w\sum_ {i=1} ^m(x_i ^2-\bar xx_i)=\sum_ {i=1} ^mx_iy_i-\sum_ {i=1} ^my_i\bar x$

这 一 步 省 略 了 将 \bar{x} 里 的 \frac{1}{m} 提 出 到 y_{i} 产 生 \bar{y}

$这一步省略了将\bar x里的\frac {1}{m}提出到y_i产生\bar y$

\begin{aligned} (262) & w = & \frac{\sum_{i = 1}^{m} x_{i} y_{i} - \sum_{i = 1}^{m} \bar{y} x_{i}}{\sum_{i = 1}^{m} x_{i}^{2} - \bar{x} \sum_{i = 1}^{m} x_{i}} \\ (263) & = & \frac{\sum_{i = 1}^{m} x_{i} y_{i} - \sum_{i = 1}^{m} y_{i} \bar{x}}{\sum_{i = 1}^{m} x_{i}^{2} - \frac{1}{m} \sum_{i = 1}^{m} x_{i} \sum_{i = 1}^{m} x_{i}} \\ (264) & = & \frac{\sum_{i = 1}^{m} y_{i} (x_{i} - \bar{x})}{\sum_{i = 1}^{m} x_{i}^{2} - \frac{1}{m} (\sum_{i = 1}^{m} x_{i})^{2}} \end{aligned}

$\begin{align} w =& \frac {\sum_ {i=1} ^mx_iy_i-\sum_ {i=1} ^m\bar y x_i}{\sum_ {i=1} ^mx_i ^2-\bar x\sum_ {i=1} ^mx_i}\\ =& \frac {\sum_ {i=1} ^mx_iy_i-\sum_ {i=1} ^my_i\bar x}{\sum_ {i=1} ^mx_i ^2-\frac {1}{m}\sum_ {i=1} ^mx_i\sum_ {i=1} ^mx_i} \\ =& \frac{\sum _{i=1} ^m y_i(x_i-\bar x)}{\sum _{i=1} ^m x_i^2-\frac{1}{m}(\sum _{i=1} ^m x_i)^2} \end{align}$

3.2对数几率回归(逻辑回归)公式推导

将预测的 $f(x_i)$ 输入至sigmoid函数，输出一个[0,1]区间的值，大于05为正样本，小于05为负样本。

sigmoid函数

g (z) = \frac{1}{1 + e^{- z}}

$g(z) = \frac{1}{1+e^{-z}}$

正样本可能性

y = \frac{1}{1 + e^{- (w^{T} x + b)}}

$y=\frac{1}{1+e^{-(w^Tx+b)}}$

1-y则表示预测负样本可能性，两则比值称为“几率”，表示x为正例的相对可能性

\frac{y}{1 - y}

$\frac{y}{1-y}$
对数几率表示为

\ln \frac{y}{1 - y}

$\ln \frac{y}{1-y}$
第i个正样本表达式：

p (y_{i} = 1 | x_{i}) = \frac{1}{1 + e^{- (w^{T} x_{i} + b)}} (1)

$p(y_i=1|x_i)=\frac{1}{1+e^{-(w^Tx_i+b)}}\qquad\qquad(1)$
第i个负样本表达式：

p (y_{i} = 0 | x_{i}) = 1 - p (y_{i} = 1 | x_{i}) = \frac{1}{1 + e^{w^{T} x_{i} + b}} (2)

$p(y_i=0|x_i)=1-p(y_i=1|x_i)=\frac{1}{1+e^{w^Tx_i+b}}\qquad(2)$

此处有两种做法：

做法1(西瓜书做法)：

\begin{aligned} (420) & p (y_{i} | x_{i}; w, b) = & y_{i} p (y_{i} = 1 | x_{i}) + (1 - y_{i}) p (y_{i} = 0 | x_{i}) \\ (421) & = & y_{i} \frac{e^{β^{T} x_{i}}}{1 + e^{β^{T} x_{i}}} + \frac{1 - y_{i}}{1 + e^{β^{T} x_{i}}} \\ (422) & = & \frac{y_{i} e^{β^{T} x_{i}} + 1 - y_{i}}{1 + e^{β^{T} x_{i}}} \end{aligned}

$\begin{align} p(y_i|x_i;w,b) =& y_i p(y_i=1|x_i) + (1-y_i)p(y_i=0|x_i) \\ =& y_i \frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}+\frac{1-y_i}{1+e^{\beta^Tx_i}} \\ =& \frac{y_i e^{\beta^Tx_i} + 1- y_i}{1+e^{\beta^Tx_i}} \\ \end{align}$

\begin{aligned} (423) & $ L (w ， b) = & \sum_{i + 1}^{m} (\ln p (y_{i} | x_{i}; w, b)) \\ (424) & = & \sum_{i + 1}^{m} (\ln (y_{i} e^{β^{T} x_{i}} + 1 - y_{i}) - \ln (1 + e^{β^{T} x_{i}})) \end{aligned}

$\begin{align} $L(w，b) =& \sum_{i+1}^m \left( \ln p(y_i|x_i;w,b) \right) \\ =& \sum_{i+1}^m \left( \ln (y_i e^{\beta ^Tx_i} + 1 - y_i) - \ln (1+e^{\beta ^Tx_i})\right) \end{align}$

当 y_{i} = 0 时

$当y_i=0时$

L (w ， b) = \sum_{i + 1}^{m} (0 - \ln (1 + e^{β^{T} x_{i}}))

$L(w，b)=\sum_{i+1}^m \left(0 - \ln (1+e^{\beta ^Tx_i}) \right)$

当 y_{i} = 1 时

$当y_i=1时$

L (w ， b) = \sum_{i + 1}^{m} (β^{T} x_{i} - \ln (1 + e^{β^{T} x_{i}}))

$L(w，b)=\sum_{i+1}^m \left(\beta^T x_i - \ln (1+e^{\beta ^Tx_i})\right)$
所以整合为

L (w ， b) = \sum_{i + 1}^{m} (y_{i} β^{T} x_{i} - \ln (1 + e^{β^{T} x_{i}}))

$L(w，b)=\sum_{i+1}^m \left(y_i \beta^T x_i - \ln (1+e^{\beta ^Tx_i})\right)$

做法2：

则

p (y_{i} | x_{i}; w, b) = p (y_{i} = 1 | x_{i})^{y_{i}} p (y_{i} = 0 | x_{i})^{1 - y_{i}}

$p(y_i|x_i;w,b)=p(y_i=1|x_i)^{y_i}p(y_i=0|x_i)^{1-y_i}$
当为正样本时

p (y_{i} = 1 | x_{i}; w, b) = p (y_{i} = 1 | x_{i})

$p(y_i=1|x_i;w,b)=p(y_i=1|x_i)$
为负样本时

p (y_{i} = 0 | x_{i}; w, b) = p (y_{i} = 0 | x_{i})

$p(y_i=0|x_i;w,b)=p(y_i=0|x_i)$
目标函数应该越大越好，利用对数似然估计w,b

\begin{aligned} (630) & L (w, b) = & \ln \prod_{i = 1}^{m} p (y_{i} = 1 | x_{i})^{y_{i}} p (y_{i} = 0 | x_{i})^{1 - y_{i}} \\ (631) & = & \sum_{i = 1}^{m} (y_{i} \ln p (y_{i} = 1 | x_{i}) + (1 - y_{i}) \ln p (y_{i} = 0 | x_{i})) \end{aligned}

$\begin{align} L(w,b) =& \ln \prod_{i=1} ^mp(y_i=1|x_i)^{y_i}p(y_i=0|x_i)^{1-y_i} \\ =& \sum_ {i=1}^m(y_i\ln p(y_i=1|x_i)+(1-y_i)\ln p(y_i=0|x_i))\\ \end{align}$
令

β = (w ； b)

$\beta=(w；b)$ ，

\hat{x} = (x; 1)

$\hat{x}=(x;1)$

\begin{aligned} (632) & L (β) = & \sum_{i = 1}^{m} (y_{i} \ln p (y_{i} = 1 | \hat{x_{i}}) + (1 - y_{i}) \ln p (y_{i} = 0) | \hat{x_{i}}) \\ (633) & = & \sum_{i = 1}^{m} (y_{i} \ln \frac{e^{β^{T} \hat{x_{i}}}}{1 + e^{β^{T} \hat{x_{i}}}} + (1 - y_{i}) \ln \frac{1}{1 + e^{β^{T} \hat{x_{i}}}}) \\ (634) & = & \sum_{i = 1}^{m} (y_{i} (β^{T} \hat{x_{i}}) - y_{i} \ln (1 + e^{β^{T} \hat{x_{i}}}) + (1 - y_{i}) (- \ln (1 + e^{β^{T} \hat{x_{i}}}))) \\ (635) & = & \sum_{i = 1}^{m} (y_{i} (β^{T} \hat{x_{i}}) - \ln (1 + e^{β^{T} \hat{x_{i}}})) \end{aligned}

$\begin{align} L(\beta) =& \sum_ {i=1} ^m(y_i\ln p(y_i=1|\hat{x_i})+(1-y_i)\ln p(y_i=0)|\hat{x_i}) \\ =& \sum_{i=1}^m(y_i\ln {\frac{e^{\beta^T \hat{x_i}}}{1+e^{\beta^T \hat{x_i}}}}+(1-y_i)\ln \frac{1}{1+e^{\beta^T \hat{x_i}}}) \\ =& \sum_{i=1}^m(y_i(\beta^T\hat{x_i})-y_i\ln(1+e^{\beta^T \hat{x_i}})+(1-y_i)(-\ln(1+e^{\beta^T \hat{x_i}})))\\ =& \sum_{i=1}^m(y_i(\beta^T\hat{x_i})-\ln(1+e^{\beta^T\hat{x_i}})) \end{align}$

\begin{aligned} (636) & a r g m a x_{β} L (β) = & a r g m i n_{β} (- L (β)) \\ (637) & = & \sum_{i = 1}^{m} (- y_{i} (β^{T} \hat{x_{i}}) + \ln (1 + e^{β^{T} \hat{x_{i}}})) \end{aligned}

$\begin{align} argmax_{\beta}L(\beta) =& argmin_{\beta}(-L(\beta)) \\ =& \sum_{i=1}^m(-y_i(\beta^T\hat{x_i})+\ln(1+e^{\beta^T\hat{x_i}})) \end{align}$
可根据梯度下降和牛顿法求最优解

β^{*}

$\beta ^*$ 。

β^{*} 表 示 为 β 解

$\qquad\qquad\qquad \beta^*表示为\beta解$