[笔记]逻辑回归Logistic Regression

逻辑回归Logistic Regression

模型

\[P(Y=1|x)=\frac{1}{1+e^{-(w\cdot{x}+b)}} \]

参数估计

使用极大似然估计

\[\begin{equation} \begin{aligned} L(w) &= \Pi_{i=1}^N\sigma(z)^{y_i}(1-\sigma(z))^{1-y_i} \\ &\Rightarrow^{取对数} \Sigma^{N}_{i=1} y_ilog\sigma(z)+(1-y_i)log(1-\sigma(z)) \\ &=\Sigma_{i=1}^Ny_ilog\frac{\sigma(z)}{1-\sigma(z)}+log(1-\sigma(z)) \\ &= \Sigma_{i=1}^Ny_iz+log(1-\sigma(z)) \\ &其中,z=w\cdot x,w=(x^{(1)},x^{(2)},...,x^{(k)},b) \end{aligned} \end{equation}\]

\(L(w)\)求极大值,得到\(w\)的估计值。

问题

  1. 逻辑回归是分类模型,为什么叫逻辑“回归”?
    某事件的几率指该事件发生的概率与不发生的概率之间的比值,则该事件的对数几率logit表示为\(logit(p)=log\frac{p}{1-p}\)。针对逻辑回归而言,\(logit(p) = w\cdot{x}+b\),所以输出\(Y=1\)的对数几率是由输入\(x\)的线性函数表示的模型,即逻辑回归模型。另一方面,逻辑回归模型将对数几率转换为概率。【感知机是使用阈值作为分类间隔;逻辑回归是转换为概率】
  2. 逻辑回归与线性回归的区别与联系?
    区别:在逻辑回归中,\(y\)因变量为离散值;在线性回归中,\(y\)为连续值。即,逻辑回归为分类模型,而线性回归为回归模型。
    联系:
    • 两者同属于广义线性模型。逻辑回归的假设条件为\(P(y|x;\theta) \sim Bernoulli(\phi)\);线性回归在使用最小二乘法求解时,假设条件为\(P(y|x;\theta) \sim N(\mu,\sigma^2)\)
    • 两者都可以使用梯度下降法求解最佳参数。

广义线性模型(Generalized Linear Models)
成立条件

  1. \(p(y|x;\theta) \sim 指数族分布\)
  2. \(h_\theta(x) = E[y|x;\theta]\)
  3. 参数\(\eta\)与输入\(x\)是线性相关的

指数分布
\(p(y;\eta) = b(y)exp(\eta^TT(y)-a(\eta)),其中\eta是自然参数,T(y)是充分统计量\)

  1. 逻辑回归为什么使用交叉熵而不是用平方误差作为损失函数(MSE)?
    \(\frac{\partial\sigma(x)}{\partial x} = \sigma(x)(1-\sigma(x)),当x=0时,取最大值0.25。\) 当使用平方误差作为损失函数时,求得的梯度值会很小(梯度含有\(\frac{\partial\sigma(x)}{\partial x}\)),误差反向传播不易快速收敛;使用交叉熵作为损失函数时,梯度不含\(\frac{\partial\sigma(x)}{\partial x}\),可以快速求的最优值。
  2. 逻辑回归为什么使用Sigmoid函数?
    由于最大熵原理的性质,指数族分布是给定某些统计量下熵最大的分布。例如,伯努利分布就是只有两个取值且给定期望为\(\phi\)的最大熵分布。所以根据广义线性模型的定义,逻辑回归模型

\[\begin{equation} \begin{aligned} h_{\theta}(x) &= E[y|x;\theta] \\ &=\phi \\ &=\frac{1}{1+e^{-\eta}} \\ & = \frac{1}{1+e^{-w \cdot x}} \end{aligned} \end{equation} \]

最大熵原理:学习概率模型时,在所有可能的概率模型分布中,熵最大的模型是最好的模型。通俗来讲,最大熵模型在满足已有事实的情况下(约束条件)下,在没有更多信息的情况下,认为不确定的部分是等可能的。

  1. 为什么逻辑回归的目标函数是凸函数?
    如果证明某单变量函数\(f(x)\)为凸函数,只需证明\(\frac{\partial^2{f(x)}}{\partial(x)\partial(x)} \geq 0\)。所以对于逻辑回归的目标函数,其自变量为向量形式,则需要证明所有二阶偏导数组成的矩阵Hessian黑塞矩阵为半正定矩阵即可。

凸函数定义 \(f(\frac{x_1+x_2}{2}) \leq \frac{f(x_1)+f(x_2)}{2},即求得的局部最优极为全局最优。\)

猜你喜欢

转载自www.cnblogs.com/mrdragonma/p/12570268.html