吴恩达——机器学习(逻辑回归的前世今生)

之前只知道逻辑回归的方法却不明白为什么要这么做,为什么h_\theta \left ( x \right )可以代表取1的概率。在看了吴大神的机器学习课程第四课之后恍然大悟。

首先引入伯努利分布:Bernulli\left ( \phi \right )\Rightarrow P\left ( y=1;\phi \right )=\phi    参数\phi代表y取值为1的概率,改变参数\phi的值可以得到不同的关于y的分布。伯努利分布与高斯分布同属于指数分布族,所以在给定a,b,t的情况下,y的概率分布可以表示为:

P\left ( y;\vartheta \right )=b\left ( y \right )exp\left ( \vartheta ^{T}T\left ( y \right )-a\left ( \vartheta \right ) \right )

其中:\vartheta为分布的自然参数;T(y)是充分统计量,通常T(y)=y

将伯努利分布表示为上式形式:

P\left ( y;\phi \right )=\phi ^{y}\left ( 1-\phi \right )^{1-y}\\ \Rightarrow exp\left ( log\left ( \phi ^{y} \left ( 1-\phi \right )^{1-y}\right ) \right )\\ \Rightarrow exp\left ( ylog\phi +\left ( 1-y \right )log\left ( 1-\phi \right ) \right )\\ \Rightarrow exp\left ( log\frac{\phi }{1-\phi }y+log\left ( 1-\phi \right ) \right )

则b(y)=1,   \vartheta =log\frac{\phi }{1-\phi },   T(y)=y,     -a(\vartheta )=log(1-\phi )

\Rightarrow \phi =\frac{1}{1+e^{-\vartheta }}, a\left ( \vartheta \right )=log(1+e^{\vartheta }))

假设:(1)y|x;\theta \sim expFamily(\vartheta )

           (2)给定x,输出E[T(y)|x]

           (3)\vartheta =\theta ^{T}x

对于伯努利分布,有:

h_\theta \left ( x \right )\\=E\begin{bmatrix} y|x;\theta \end{bmatrix}\\=p\left ( y=1|x;\theta \right )\\=\phi \\=\frac{1}{1+e^{-\vartheta }}\\=\frac{1}{1+e^{-\theta ^{T}x}}

正则响应函数:g(\vartheta )=E\begin{bmatrix} y;\vartheta \end{bmatrix}=\frac{1}{1+e^{-\vartheta }}

正则关联函数::g^{-1}

由LR推广得到的softmax regression用于解决多项式分布问题,将在下一部分中介绍。

猜你喜欢

转载自blog.csdn.net/lekusun9671/article/details/82349113