机器学习-极大似然和对数几率回归(浅入)

极大似然估计法

极大似然估计详解

贝叶斯公式

贝叶斯公式讲述了一个条件概率的问题,公式如下:

P ( A B ) = P ( A ) P ( B A ) P ( B ) P(A|B) = P(A) frac{P(B|A)}{P(B)}

P ( A B ) P(A|B) 指在 B B 发生的前提下, A A 发生的概率

怎样用非数学语言讲解贝叶斯定理(Bayes’s theorem)

上面这篇用一个很形象的例子讲述了贝叶斯公式,它作出了如下假设:

  • P ( A ) = 5 % P(A)=5% 马路上于到十字路口的概率
  • P ( B ) = 2 % P(B)=2% 车辆打右转向灯的概率
  • P ( A B ) = P(A|B)=? 车辆打右转向灯时,遇到十字路口的概率
  • P ( B A ) = 25 % P(B|A)=25% 在经过十字路口的时候,车辆会打右转向灯的概率

将上面的假设带入公式就是,本来原本遇到十字路口的概率是很低的,但如果前面的车辆在打转向灯,前面遇到十字路口的概率就大大提高了。

将公式总结一下就是:

A = A × 新信息出现后A的概率=A概率times新信息带来的调整

示例1

示例2

似然函数

似然函数就是,假设需要求某参数 θ theta 。给出一系列的样本 ( x i , y i ) (x_i,y_i) ,出现 θ overline{theta} 的概率密度是 l ( θ ) l(overline{theta})

l ( θ ) = p ( x 1 , x 2 , . . . , x n θ ) = Π p ( x i θ ) l(theta) = p(x_1,x_2,...,x_n | theta)=Pi p(x_i|theta)

一般为了方便会取对数似然进行分析:

H ( θ ) = ln l ( θ ) H(theta) = ln l(theta)

通过求导数,当 H ( θ ) H(theta) 取最大时, θ theta 即为所估计值。

d l ( θ ) d θ = d H ( θ ) d θ = 0 frac{dl(theta)}{dtheta}=frac{dH(theta)}{dtheta}=0

对数几率回归

我们在做分类任务的时候,得到的数据往往是离散的0/1值,这对于我们使用回归任务学习比较麻烦,此时我们可以使用近似离散的模型去近似它。这里我们先讨论理想的“单位阶跃函数-(unit-step function)”

阶跃函数

单位阶跃函数:

y = 1 1 + e z y=frac{1}{1+e ^{-z}}

单位阶跃函数-gnuplot

该函数可以近似离散的零一值为连续值,我们使用的分类也可以由这种方式表示。

ln y 1 y = z ln frac{y}{1-y} = z

将我们的样本带入 z z ,就可以得到函数:

ln y 1 y = w T x + b ln frac{y}{1-y} = textbf{textit{w}}^Ttextbf{textit{x}}+b

对数几率

上面提到的公式中 y y 1 y 1-y 可以被运用得很巧妙,在执行分类任务时,我们一般表示如下:

y = p ( y = 1 x ) ; y = p(y=1|x);

1 y = p ( y = 0 x ) ; 1-y = p(y=0|x);

此时:

ln p ( y = 1 x ) p ( y = 0 x ) = w T x + b ln frac{p(y=1|x)}{p(y=0|x)} = textbf{textit{w}}^Ttextbf{textit{x}}+b

运用“对数似然法”,就可以近似求出假定的 w w b b 的极大似然值。

猜你喜欢

转载自www.cnblogs.com/lijianming180/p/12389560.html