Coursera 机器学习 -- 分类 笔记 【第二周】

Classification(分类)

本章讲解了分类的基础概念
分类的例子有很多例如下图,邮件(垃圾分类),在线交易(是否为欺诈),肿瘤(良性还是恶性)…0代表负类(良性肿瘤),1代表正类(恶性肿瘤)

这里写图片描述

我们如何开发一个分类算法呢?先不考虑复杂的多项分类,我们从二进制分类问题开始说起,二进制分类也就是0、1两个结果的分类。

下图有一个训练集,通过肿瘤的大小来对良性、恶性进行分类的图:
即恶性为1,非恶性(良性benign tumor)为0
这里写图片描述

首先,先用hθ(x) = θ^Tx 来作为hypothesis函数,画出图像就是上图所示,而对于hθ(x)的输出值用0.5作为一个阈值是最合适的,如果hθ(x)>=0.5,则预测y=1,如果hθ(x)<0.5,则预测为0。

但是假设我们的数据集并不是这么规整,让我们在x轴进行延伸,同时有个额外的训练集在最边上。为了使hypothesis去拟合最完美的数据,所以直线的斜率会降低,就像下图蓝色的hypothesis线一样。此时,若依然使用
hθ(x)=0.5作为阈值,对于x轴的tumor size(肿瘤大小)来说,显然不是好的结果,以蓝色点为基准,左侧的肿瘤大小既有良性,也有恶性,而我们对肿瘤大小的黄金分割线很明显应该是竖直蓝色最长的那条。

这里写图片描述

结论:通过以上的例子得出,用线性回归方程,除非是幸运的时候可以拟合,否则并不是一个好的想法,所以我们通常不会使用线性回归去解决分类问题!

对于分类问题,我们知道y=0或者1,而如果使用线性回归作为hypothesis函数,那么预测的结果hθ(x)可能会大于1或小于0。而Logistic Regression(逻辑回归)却不会,它很严格的遵守了分类问题的预测范围,很明显的仅仅在0与1之间!就像下图一样。

这里写图片描述

结论:Logistic Regression(逻辑回归)虽然名字中带有回归二字,也就是说有预测的结果,但是它却是属于分类算法。名字是因为历史原因所遗留下来的,所以并不用疑惑。

Hypothesis Representation(假设函数表达式)

本章讲解了逻辑回归的Hypothesis(假设函数)

Logistic Regression Model

我们希望我们的分类器的预测值在0与1之间,当我们使用线性回归的时候,用的是θ^T,也就是θ的转置作为的参数。而真正的逻辑回归模型应该是g(z)=1/(1+e^(-z)),其中z是实数。
如下图所示:
这里写图片描述

logistic function(逻辑函数)就是逻辑回归的名字由来
sigmoid function 和logistic function是同义词,而前者就是常说的s函数。

通过上图中的两个式子,可以将θ^Tx带入到z中,得出下面的公式,而这个公式对应的是一个正无穷无限趋近于1,负无穷无限趋近于0的图形。
这里写图片描述

对于hθ(x)将给我们输出为1的概率。例如,hθ(x)= 0.7给出我们输出为1的概率为70%。我们预测为0的概率只是我们的补充它是1的概率(例如,如果它是1的概率是70%,那么它是0的概率是30%)。
总结,用两个图来总结这一章的知识点:

逻辑回归公式及图形:

这里写图片描述

概率公式:

这里写图片描述

Decision Boundary(决策边界)

下面的图复习了一下逻辑回归的hypothesis函数,以及它的回归模型:

这里写图片描述
我们看到,如果hθ(x)>=0.5,那么就预测y=1,若hθ(x)<0.5,则预测y=0,同样的,g(z)>=0.5时,也就代表着图中的z>=0,θ^Tx>=0,相反的,hθ(x)<0.5,g(z)<0.5,z<0,θ^Tx<0。

假设现在有一个数据集:

这里写图片描述

上图对应的hypothesis函数,假设hθ(x)中的θ0=-3,θ1=1,θ2=1,为了拟合数据而设定最佳的参数选项,而-3+x1+x2>=0时,则预测为1,也可以写成x1+x2>=3,画出来就是那条分割数据的直线,而这个直线的名字就叫做decision boundary(决策边界),决策边界是假设函数的一个属性,而不是数据集的属性。

Non-linear decision boundary(非线性决策边界)

例如在逻辑回归方程中,若是有多个参数,那么它的图形就不是线性的了。如下图:

这里写图片描述

在上图中,其中有5个θ参数,假设θ0=-1,θ1=0,θ2=0,θ3=1,θ4=1,
这样的参数最终得到的g(z)的z的式子:-1+x1^2+x2^2>=0,这个式子可以看出其实是个半径为1的圆的方程式。半径大于1的,则预测y=1,而半径小于1的,则预测0,也就是在圆内的。

切记:决策边界是假设函数本身及参数的属性,即使没有数据集,只要有0,决策边界也是存在的。

最后复杂的逻辑回归,例如有很多项0,最终得到的图形可能是奇形怪状的。有可能是椭圆,或者其他形状,如下图:

这里写图片描述


总结:本次介绍了分类的第一个算法,逻辑回归,虽然算法中带有回归的字眼,但是却是属于分类问题,因为是历史才造成的名称误解哈哈哈。而对于逻辑回归的假设函数很好理解,就是下面的图:

这里写图片描述

这个图很好的解释了逻辑回归的hypothesis函数,把公式2带入公式3,在带入公式1,即可得到hypothesis函数。对于决策边界的概念,它本身是属于假设函数的属性,而不是数据集的!。

展望结语

继续坚持。。╮(╯▽╰)╭。。今日打卡,滴滴滴!下一次的博客是逻辑回归算法的Cost Function(代价函数)与多类别分类。
             已经在奔往机器学习的路上——!

猜你喜欢

转载自blog.csdn.net/s740556472/article/details/79561860