[机器学习笔记] Logistic Regression与Linear Regression的区别

逻辑回归(Logistic Regression)与线性回归(Linear Regression)的区别

Logistic Regression

  • 应用于分类问题
  • 除了可以解决二分类问题外,还可以解决多分类问题。
  • Logistic Regression 是离散的。例如预测明天天气-阴,晴,雨。分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。
  • Logistics Regression仍然属于线性回归的范畴,因为分界面是线性的,而且Logistics Regression是广义线性模型(GLM)或者叫对数线性模型(LLM);
  • Logistics Regression则取对数似然的最大,做梯度下降往正梯度方向,但有时为了与线性回归保持一致,通常会取负对数似然;
  • 一般而言,LR指的是Logistics Regression,而非Linear Regression;
  • Logistics Regression与Softmax Regression是真正做分类的首选,由于方法简单,易于实现,效果良好,易于解释,除了用于分类,还可以用于推荐系统;
  • 激活函数是 sigmoid 函数,可理解成一个被 sigmoid 函数归一化后的线性回归,sigmoid 函数把实数映射到了 [0,1] 区间。关于 Logistic 回归的参数估计求解,在此不详说。如果要预测一个未知数据 x 属于哪个类,只需要带入 sigmoid 假设函数,最简单的决策方法,如果其值在 0.5~1 之间,属于类别 1,反之属于类别 0。
     

采用 Logistic Regression进行多分类的思路是:选取某个分类作为正样本,其他分类作为负样本建立一个二分类模型;以此类推建立多个(有几个分类就建几个)二分类模型;对多个二分类模型的输出值进行大小比较,把样例归为输出值最大的那类。

Linear Regression

  • 解决回归问题,通常是用来预测一个值。如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。
  • 可以对样本是非线性的,但只要对参数是线性的,就可以使用。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。对于x是否是线性无所谓,但是需要有时候做特征选择;
  • Linear Regression取对数似然的最小,所以在做梯度下降时,往负梯度方向;

Logistic and Softmax Regression 

参考博文:

https://blog.csdn.net/danieljianfeng/article/details/41901063?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

Logistic Regression的基本概念

Logistic Regression 是一种广义的线性回归分析模型,常用于数据挖掘,经济预测等领域。

Logistic Regression 从本质来说属于二分类问题,是基于Sigmoid函数(又叫“S型函数”)的有监督二类分类模型。

Sigmoid函数公式为:

扫描二维码关注公众号,回复: 10268177 查看本文章

其导数形式为:(注意,导数形式在后期会被用到)

Sigmoid函数其图像如下所示,其取值范围被压缩到0到1之间。

我们知道有监督分类问题需要有带类别标记的训练样本,中的 就对应训练集中某个样本的信息。 而样本信息通常用一系列特征的线性组合来表示,即

其中  表示 n 个特征,是每个特征的权重,代表对应特征的重要程度,是偏移,上式通常被写成向量形式:   ( 对应的等于1)。那么Sigmoid函数就可以相应地写为如下的形式:

假设我们知道了某个样本对应的特征取值和权重参数,那么只要将其带入上式即可得到一个0到1之间的数,通常认为则属于正类别,反之属于负类别,即这个数其实反映了该样本属于正类别的概率。

现在的问题是,我们手上有了训练集,即样本的都是已知的,而模型参数是未知的。我们需要通过训练集来确定未知的值。一旦被确定,每当面临新样本时,我们就可以将其对应的扔到中,根据结果是否大于0.5,轻松加愉快地得出新样本的类别了。

发布了619 篇原创文章 · 获赞 185 · 访问量 66万+

猜你喜欢

转载自blog.csdn.net/seagal890/article/details/105107179