逻辑回归基本概念

1. 逻辑回归概念

逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）

回归模型中，y是一个定性变量，比如y=0或1，logistic方法主要应用于研究某些事件发生的概率。

2.逻辑回归的优缺点

优点：
1）速度快，适合二分类问题
2）简单易于理解，直接看到各个特征的权重
3）能容易地更新模型吸收新的数据
缺点：
对数据和场景的适应能力有局限性，不如决策树算法适应性那么强

- 逻辑回归和多重线性回归的区别

Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。
这一家族中的模型形式基本上都差不多，不同的就是因变量不同。这一家族中的模型形式基本上都差不多，不同的就是因变量不同。

如果是连续的，就是多重线性回归
如果是二项分布，就是Logistic回归
如果是Poisson分布，就是Poisson回归
如果是负二项分布，就是负二项回归

- 逻辑回归用途

寻找危险因素：寻找某一疾病的危险因素等；
预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；
判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

- Regression 常规步骤

寻找h函数（即预测函数）
构造J函数（损失函数）
想办法使得J函数最小并求得回归参数（θ）

6. 构造预测函数 $h_{(x)}$

1) Logistic函数（或称为Sigmoid函数），函数形式为：

g (z) = \frac{1}{1 + e^{- z}}

$g(z)=\frac{1}{1+e^{-z}}$
对于线性边界的情况，边界形式如下：

z = θ^{T} x = θ_{0} x_{0} + θ_{1} x_{1} + \dots + θ_{n} x_{n} = \sum_{i = 0}^{n} θ_{i} x_{i}

$z=\theta^Tx=\theta_0x_0+\theta_1x_1+\dots+\theta_nx_n=\sum_{i=0}^n\theta_ix_i$
其中，训练数据为向量

x = [x_{0}, x_{1}, \dots, x_{n}]^{T}

$x=[x_0,x_1,\dots,x_n]^T$
最佳参数

θ = [θ_{0}, θ_{1}, \dots, θ_{n}]^{T}

$\theta=[\theta_0,\theta_1,\dots,\theta_n]^T$
构造预测函数为：

h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}}

$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
函数

h (x)

$h(x)$ 的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

P (y = 1 │ x; θ) = h_{θ} (x)

$P(y=1│x;θ)=h_θ (x)$

P (y = 0 │ x; θ) = 1 - h_{θ} (x)

$P(y=0│x;θ)=1-h_θ (x)$

7.构造损失函数J（m个样本，每个样本具有n个特征）

Cost函数和J函数如下，它们是基于最大似然估计推导得到的。

C o s t (h_{θ} (x), y) = {\begin{matrix} - l o g (h_{θ} (x)) & i f y = 1 \\ - l o g (1 - h_{θ} (x)) & i f y = 0 \end{matrix}

$Cost(h_\theta(x),y)=\left\{\begin{matrix} -log(h_\theta(x)) & if\ y=1\\ -log(1-h_\theta(x)) & if\ y=0 \end{matrix}\right.$

J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x), y) = - \frac{1}{m} [\sum_{i = 1}^{m} (y_{i} \log h_{θ} (x_{i}) + (1 - y_{i}) \log (1 - h_{θ} (x_{i})))]

$J(\theta)=\frac{1}{m}\sum_{i=1}^m Cost(h_\theta(x),y)=-\frac{1}{m} \left [ \sum_{i=1}^m(y_i\log h_\theta(x_i)+(1-y_i)\log(1-h_\theta(x_i))) \right ]$

8.损失函数详细推导过程

求代价函数:

$P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$
对应的似然函数为：

L (θ) = \prod_{i = 1}^{m} P (y_{i} | x_{i}; θ) = \prod_{i = 1}^{m} (h_{θ} (x_{i}))^{y_{i}} (1 - h_{θ} (x_{i}))^{1 - y_{i}}

$L(\theta)=\prod_{i=1}^mP(y_i|x_i;\theta)=\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y_i}$
对数似然函数为：

l (θ) = \log L (θ) = \sum_{i = 1}^{m} (y_{i} \log h_{θ} (x_{i}) + (1 - y_{i}) \log (1 - h_{θ} (x_{i})))

$l(\theta)=\log L(\theta)=\sum_{i=1}^m(y_i\log h_\theta(x_i)+(1-y_i)\log (1-h_\theta(x_i)))$
最大似然估计就是求使l(θ)取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。

在Andrew Ng的课程中将J(θ)取为下式，即: $J(\theta)=-\frac{1}{m}l(\theta)$

梯度下降法求解最小值，对应的梯度为：
$\begin{aligned} \frac{\partial}{\partial θ_{i}} J (θ) = & - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} \frac{1}{h_{θ} (x_{i})} \frac{\partial}{\partial θ_{i}} h_{θ} (x_{i}) - (1 - y_{i}) \frac{1}{1 - h_{θ} (x_{i})} \frac{\partial}{\partial θ_{i}} h_{θ} (x_{i}) h_{θ} (x_{i}) \\ = & - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} \frac{1}{g (θ^{T} x_{i})} - (1 - y_{i}) \frac{1}{1 - g (θ^{T} x_{i})}) \frac{\partial}{\partial θ_{i}} g (θ^{T} x_{i}) \\ = & - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} \frac{1}{g (θ^{T} x_{i})} - (1 - y_{i}) \frac{1}{1 - g (θ^{T} x_{i})}) g (θ^{T} x_{i}) (1 - g (θ^{T} x_{i})) \frac{\partial}{\partial θ_{i}} θ^{T} x_{i} \\ = & - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} (1 - g (θ^{T} x_{i})) - (1 - y_{i}) g (θ^{T} x_{i})) x_{i}^{j} \\ = & - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - g (θ^{T} x_{i})) x_{i}^{j} \\ = & \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{j} \end{aligned}$ $\begin{equation*} \begin{split} \frac{\partial}{\partial\theta_i}J(\theta)=&-\frac{1}{m}\sum_{i=1}^m(y_i\frac{1}{h_\theta(x_i)}\frac{\partial}{\partial\theta_i}h_\theta(x_i)-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\partial}{\partial\theta_i}h_\theta(x_i)h_\theta(x_i)\\ =&-\frac{1}{m}\sum_{i=1}^m(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)})\frac{\partial}{\partial\theta_i}g(\theta^Tx_i)\\ =&-\frac{1}{m}\sum_{i=1}^m(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)})g(\theta^Tx_i)(1-g(\theta^Tx_i))\frac{\partial}{\partial\theta_i}\theta^Tx_i\\ =&-\frac{1}{m}\sum_{i=1}^m(y_i(1-g(\theta^Tx_i))-(1-y_i)g(\theta^Tx_i))x_i^j\\ =&-\frac{1}{m}\sum_{i=1}^m(y_i-g(\theta^Tx_i))x_i^j\\ =&\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j\\ \end{split} \end{equation*}$
θ更新过程可以写成：
$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$

9.正则化

（1）过拟合问题
过拟合即是过分拟合了训练数据，使得模型的复杂度提高，繁华能力较差（对未知数据的预测能力）
2）过拟合主要原因
过拟合问题往往源自过多的特征
解决方法
1）减少特征数量（减少特征会失去一些信息，即使特征选的很好）
- 可用人工选择要保留的特征；
- 模型选择算法
2）正则化（特征较多时比较有效）
- 保留所有特征，但降低参数 $\theta$ 的值的影响
（3）正则化方法
正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。
正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：

J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i})^{2} + λ \sum_{j = 1}^{m} θ_{j}^{2}

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^m\theta_j^2$
ambda是正则项系数：
- 如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象；
- 如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:

θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{j} - \frac{λ}{m} θ_{j}

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j-\frac{\lambda}{m}\theta_j$

Python实现逻辑回归

from sklearn.linear_model import LogisticRegression
Model = LogisticRegression()
Model.fit(X_train, y_train)
Model.score(X_train,y_train)
# Equation coefficient and Intercept
Print(‘Coefficient’,model.coef_)
Print(‘Intercept’,model.intercept_)
# Predict Output
Predicted = Model.predict(x_test)

机器学习--逻辑回归

逻辑回归基本概念

1. 逻辑回归概念

2.逻辑回归的优缺点

- 逻辑回归和多重线性回归的区别

- 逻辑回归用途

- Regression 常规步骤

6. 构造预测函数 $h_{(x)}$

7.构造损失函数J（m个样本，每个样本具有n个特征）

8.损失函数详细推导过程

9.正则化

Python实现逻辑回归

猜你喜欢

机器学习--逻辑回归

逻辑回归基本概念

1. 逻辑回归概念

2.逻辑回归的优缺点

- 逻辑回归和多重线性回归的区别

- 逻辑回归用途

- Regression 常规步骤

6. 构造预测函数 h(x) h ( x ) h_{(x)}

7.构造损失函数J（m个样本，每个样本具有n个特征）

8.损失函数详细推导过程

9.正则化

Python实现逻辑回归

猜你喜欢

6. 构造预测函数 $h_{(x)}$