版权声明:本博所有原创文章,欢迎转载,转载请注明出处 https://blog.csdn.net/qq_34553043/article/details/81989971
西瓜书第3章公式推导<一>
3.1线性回归公式推导
假设预测值为
f(xi)=wxi+b
,使得
f(xi)
逼近
yi
。
则可通过将
yi
-
f(xi)
取最小值,即导数为0,求出w、b。
w∗
,
b∗
表示w和b的解
x¯=1m∑i=1mxi
y¯=1m∑i=1myi
公式推导:
(w∗,b∗)==argmin(w,b)∑i=1n((f(xi)−yi)2)argmin(w,b)∑i=1n(yi−wxi+b)2(132)(133)
令E(w,b)=argmin(w,b)∑i=1n(yi−wxi+b)2
∂E∂b=b=2(mb−∑i=1m(yi−wxi))=01m∑i=1m(yi−wxi)(134)(135)
∂E∂w=2(w∑i=1m(xi)2−∑i=1m(yi−b)xi)=0
w∑i=1m(xi)2−∑i=1m(yi−1m∑i=1m(yi−wxi))xi=w∑i=1m(xi)2−∑i=1mxiyi+∑i=1mxi∑i=1m1m(yi−wxi)=w∑i=1m(xi)2−∑i=1mxiyi+∑i=1m(xiy¯−wx¯xi)=000(259)(260)(261)
w∑mi=1(x2i−x¯xi)=∑mi=1xiyi−∑mi=1yix¯
这一步省略了将x¯里的1m提出到yi产生y¯
w===∑mi=1xiyi−∑mi=1y¯xi∑mi=1x2i−x¯∑mi=1xi∑mi=1xiyi−∑mi=1yix¯∑mi=1x2i−1m∑mi=1xi∑mi=1xi∑mi=1yi(xi−x¯)∑mi=1x2i−1m(∑mi=1xi)2(262)(263)(264)
3.2对数几率回归(逻辑回归)公式推导
将预测的
f(xi)
输入至sigmoid函数,输出一个[0,1]区间的值,大于05为正样本,小于05为负样本。
sigmoid函数
g(z)=11+e−z
正样本可能性
y=11+e−(wTx+b)
1-y则表示预测负样本可能性,两则比值称为“几率”,表示x为正例的相对可能性
y1−y
对数几率表示为
lny1−y
第i个正样本表达式:
p(yi=1|xi)=11+e−(wTxi+b)(1)
第i个负样本表达式:
p(yi=0|xi)=1−p(yi=1|xi)=11+ewTxi+b(2)
此处有两种做法:
做法1(西瓜书做法):
p(yi|xi;w,b)===yip(yi=1|xi)+(1−yi)p(yi=0|xi)yieβTxi1+eβTxi+1−yi1+eβTxiyieβTxi+1−yi1+eβTxi(420)(421)(422)
$L(w,b)==∑i+1m(lnp(yi|xi;w,b))∑i+1m(ln(yieβTxi+1−yi)−ln(1+eβTxi))(423)(424)
当yi=0时
L(w,b)=∑mi+1(0−ln(1+eβTxi))
当yi=1时
L(w,b)=∑mi+1(βTxi−ln(1+eβTxi))
所以整合为
L(w,b)=∑mi+1(yiβTxi−ln(1+eβTxi))
做法2:
则
p(yi|xi;w,b)=p(yi=1|xi)yip(yi=0|xi)1−yi
当为正样本时
p(yi=1|xi;w,b)=p(yi=1|xi)
为负样本时
p(yi=0|xi;w,b)=p(yi=0|xi)
目标函数应该越大越好,利用对数似然估计w,b
L(w,b)==ln∏i=1mp(yi=1|xi)yip(yi=0|xi)1−yi∑i=1m(yilnp(yi=1|xi)+(1−yi)lnp(yi=0|xi))(630)(631)
令
β=(w;b)
,
x^=(x;1)
L(β)====∑i=1m(yilnp(yi=1|xi^)+(1−yi)lnp(yi=0)|xi^)∑i=1m(yilneβTxi^1+eβTxi^+(1−yi)ln11+eβTxi^)∑i=1m(yi(βTxi^)−yiln(1+eβTxi^)+(1−yi)(−ln(1+eβTxi^)))∑i=1m(yi(βTxi^)−ln(1+eβTxi^))(632)(633)(634)(635)
argmaxβL(β)==argminβ(−L(β))∑i=1m(−yi(βTxi^)+ln(1+eβTxi^))(636)(637)
可根据梯度下降和牛顿法求最优解
β∗
。
β∗表示为β解