西瓜书第3章公式推导一

版权声明:本博所有原创文章,欢迎转载,转载请注明出处 https://blog.csdn.net/qq_34553043/article/details/81989971

西瓜书第3章公式推导<一>

3.1线性回归公式推导

假设预测值为 f ( x i ) = w x i + b ,使得 f ( x i ) 逼近 y i

则可通过将 y i - f ( x i ) 取最小值,即导数为0,求出w、b。

w b 表示w和b的解

x ¯ = 1 m i = 1 m x i

y ¯ = 1 m i = 1 m y i

公式推导:

(132) ( w , b ) = a r g m i n ( w , b ) i = 1 n ( ( f ( x i ) y i ) 2 ) (133) = a r g m i n ( w , b ) i = 1 n ( y i w x i + b ) 2

E ( w , b ) = a r g m i n ( w , b ) i = 1 n ( y i w x i + b ) 2

(134) E b = 2 ( m b i = 1 m ( y i w x i ) ) = 0 (135) b = 1 m i = 1 m ( y i w x i )

E w = 2 ( w i = 1 m ( x i ) 2 i = 1 m ( y i b ) x i ) = 0

(259) w i = 1 m ( x i ) 2 i = 1 m ( y i 1 m i = 1 m ( y i w x i ) ) x i = 0 (260) w i = 1 m ( x i ) 2 i = 1 m x i y i + i = 1 m x i i = 1 m 1 m ( y i w x i ) = 0 (261) w i = 1 m ( x i ) 2 i = 1 m x i y i + i = 1 m ( x i y ¯ w x ¯ x i ) = 0

w i = 1 m ( x i 2 x ¯ x i ) = i = 1 m x i y i i = 1 m y i x ¯

x ¯ 1 m y i y ¯

(262) w = i = 1 m x i y i i = 1 m y ¯ x i i = 1 m x i 2 x ¯ i = 1 m x i (263) = i = 1 m x i y i i = 1 m y i x ¯ i = 1 m x i 2 1 m i = 1 m x i i = 1 m x i (264) = i = 1 m y i ( x i x ¯ ) i = 1 m x i 2 1 m ( i = 1 m x i ) 2

3.2对数几率回归(逻辑回归)公式推导

将预测的 f ( x i ) 输入至sigmoid函数,输出一个[0,1]区间的值,大于05为正样本,小于05为负样本。

sigmoid函数

g ( z ) = 1 1 + e z

正样本可能性

y = 1 1 + e ( w T x + b )

1-y则表示预测负样本可能性,两则比值称为“几率”,表示x为正例的相对可能性

y 1 y

对数几率表示为
ln y 1 y

第i个正样本表达式:
p ( y i = 1 | x i ) = 1 1 + e ( w T x i + b ) ( 1 )

第i个负样本表达式:
p ( y i = 0 | x i ) = 1 p ( y i = 1 | x i ) = 1 1 + e w T x i + b ( 2 )

此处有两种做法:

做法1(西瓜书做法):

(420) p ( y i | x i ; w , b ) = y i p ( y i = 1 | x i ) + ( 1 y i ) p ( y i = 0 | x i ) (421) = y i e β T x i 1 + e β T x i + 1 y i 1 + e β T x i (422) = y i e β T x i + 1 y i 1 + e β T x i

(423) $ L ( w b ) = i + 1 m ( ln p ( y i | x i ; w , b ) ) (424) = i + 1 m ( ln ( y i e β T x i + 1 y i ) ln ( 1 + e β T x i ) )

y i = 0

L ( w b ) = i + 1 m ( 0 ln ( 1 + e β T x i ) )

y i = 1
L ( w b ) = i + 1 m ( β T x i ln ( 1 + e β T x i ) )

所以整合为
L ( w b ) = i + 1 m ( y i β T x i ln ( 1 + e β T x i ) )

做法2:

p ( y i | x i ; w , b ) = p ( y i = 1 | x i ) y i p ( y i = 0 | x i ) 1 y i

当为正样本时
p ( y i = 1 | x i ; w , b ) = p ( y i = 1 | x i )

为负样本时
p ( y i = 0 | x i ; w , b ) = p ( y i = 0 | x i )

目标函数应该越大越好,利用对数似然估计w,b
(630) L ( w , b ) = ln i = 1 m p ( y i = 1 | x i ) y i p ( y i = 0 | x i ) 1 y i (631) = i = 1 m ( y i ln p ( y i = 1 | x i ) + ( 1 y i ) ln p ( y i = 0 | x i ) )

β = ( w b ) x ^ = ( x ; 1 )
(632) L ( β ) = i = 1 m ( y i ln p ( y i = 1 | x i ^ ) + ( 1 y i ) ln p ( y i = 0 ) | x i ^ ) (633) = i = 1 m ( y i ln e β T x i ^ 1 + e β T x i ^ + ( 1 y i ) ln 1 1 + e β T x i ^ ) (634) = i = 1 m ( y i ( β T x i ^ ) y i ln ( 1 + e β T x i ^ ) + ( 1 y i ) ( ln ( 1 + e β T x i ^ ) ) ) (635) = i = 1 m ( y i ( β T x i ^ ) ln ( 1 + e β T x i ^ ) )

(636) a r g m a x β L ( β ) = a r g m i n β ( L ( β ) ) (637) = i = 1 m ( y i ( β T x i ^ ) + ln ( 1 + e β T x i ^ ) )

可根据梯度下降和牛顿法求最优解 β β β

猜你喜欢

转载自blog.csdn.net/qq_34553043/article/details/81989971