Classification(分类)

本章讲解了分类的基础概念
分类的例子有很多例如下图，邮件(垃圾分类)，在线交易(是否为欺诈),肿瘤(良性还是恶性)…0代表负类(良性肿瘤)，1代表正类(恶性肿瘤)

这里写图片描述

我们如何开发一个分类算法呢？先不考虑复杂的多项分类，我们从二进制分类问题开始说起，二进制分类也就是0、1两个结果的分类。

下图有一个训练集，通过肿瘤的大小来对良性、恶性进行分类的图：
即恶性为1，非恶性(良性benign tumor)为0
这里写图片描述

首先，先用hθ(x) = θ^Tx 来作为hypothesis函数，画出图像就是上图所示，而对于hθ(x)的输出值用0.5作为一个阈值是最合适的，如果hθ(x)>=0.5，则预测y=1，如果hθ(x)<0.5,则预测为0。

但是假设我们的数据集并不是这么规整，让我们在x轴进行延伸，同时有个额外的训练集在最边上。为了使hypothesis去拟合最完美的数据，所以直线的斜率会降低，就像下图蓝色的hypothesis线一样。此时，若依然使用
hθ(x)=0.5作为阈值，对于x轴的tumor size(肿瘤大小)来说，显然不是好的结果，以蓝色点为基准，左侧的肿瘤大小既有良性，也有恶性，而我们对肿瘤大小的黄金分割线很明显应该是竖直蓝色最长的那条。

这里写图片描述

结论：通过以上的例子得出，用线性回归方程，除非是幸运的时候可以拟合，否则并不是一个好的想法，所以我们通常不会使用线性回归去解决分类问题！

对于分类问题，我们知道y=0或者1，而如果使用线性回归作为hypothesis函数，那么预测的结果hθ(x)可能会大于1或小于0。而Logistic Regression(逻辑回归)却不会，它很严格的遵守了分类问题的预测范围，很明显的仅仅在0与1之间！就像下图一样。

这里写图片描述

结论:Logistic Regression(逻辑回归)虽然名字中带有回归二字，也就是说有预测的结果，但是它却是属于分类算法。名字是因为历史原因所遗留下来的，所以并不用疑惑。

Hypothesis Representation(假设函数表达式)

本章讲解了逻辑回归的Hypothesis(假设函数)

Logistic Regression Model

我们希望我们的分类器的预测值在0与1之间，当我们使用线性回归的时候，用的是θ^T，也就是θ的转置作为的参数。而真正的逻辑回归模型应该是g(z)=1/(1+e^(-z)),其中z是实数。
如下图所示：
这里写图片描述

logistic function(逻辑函数)就是逻辑回归的名字由来
sigmoid function 和logistic function是同义词，而前者就是常说的s函数。

通过上图中的两个式子，可以将θ^Tx带入到z中，得出下面的公式，而这个公式对应的是一个正无穷无限趋近于1，负无穷无限趋近于0的图形。
这里写图片描述

对于hθ(x)将给我们输出为1的概率。例如，hθ（x）= 0.7给出我们输出为1的概率为70％。我们预测为0的概率只是我们的补充它是1的概率（例如，如果它是1的概率是70％，那么它是0的概率是30％）。
总结，用两个图来总结这一章的知识点：

逻辑回归公式及图形：

这里写图片描述

概率公式：

这里写图片描述

Decision Boundary(决策边界)

下面的图复习了一下逻辑回归的hypothesis函数，以及它的回归模型：

这里写图片描述
我们看到，如果hθ(x)>=0.5，那么就预测y=1，若hθ(x)<0.5,则预测y=0，同样的，g(z)>=0.5时，也就代表着图中的z>=0,θ^Tx>=0，相反的，hθ(x)<0.5,g(z)<0.5,z<0,θ^Tx<0。

假设现在有一个数据集:

这里写图片描述

上图对应的hypothesis函数,假设hθ(x)中的θ0=-3,θ1=1,θ2=1,为了拟合数据而设定最佳的参数选项，而-3+x1+x2>=0时，则预测为1，也可以写成x1+x2>=3,画出来就是那条分割数据的直线，而这个直线的名字就叫做decision boundary(决策边界)，决策边界是假设函数的一个属性，而不是数据集的属性。

Non-linear decision boundary(非线性决策边界)

例如在逻辑回归方程中，若是有多个参数，那么它的图形就不是线性的了。如下图：

这里写图片描述

在上图中，其中有5个θ参数，假设θ0=-1,θ1=0,θ2=0,θ3=1,θ4=1,
这样的参数最终得到的g(z)的z的式子：-1+x1^2+x2^2>=0,这个式子可以看出其实是个半径为1的圆的方程式。半径大于1的，则预测y=1，而半径小于1的，则预测0，也就是在圆内的。

切记：决策边界是假设函数本身及参数的属性，即使没有数据集，只要有0，决策边界也是存在的。

最后复杂的逻辑回归，例如有很多项0，最终得到的图形可能是奇形怪状的。有可能是椭圆，或者其他形状，如下图：

这里写图片描述

总结：本次介绍了分类的第一个算法，逻辑回归，虽然算法中带有回归的字眼，但是却是属于分类问题，因为是历史才造成的名称误解哈哈哈。而对于逻辑回归的假设函数很好理解，就是下面的图：

这里写图片描述

这个图很好的解释了逻辑回归的hypothesis函数，把公式2带入公式3，在带入公式1，即可得到hypothesis函数。对于决策边界的概念，它本身是属于假设函数的属性，而不是数据集的！。

展望结语

继续坚持。。╮(╯▽╰)╭。。今日打卡，滴滴滴！下一次的博客是逻辑回归算法的Cost Function(代价函数)与多类别分类。
　　　　　　　　　　　　　已经在奔往机器学习的路上——！

Coursera 机器学习 -- 分类笔记【第二周】

Classification(分类)

Hypothesis Representation(假设函数表达式)

Logistic Regression Model

Decision Boundary(决策边界)

Non-linear decision boundary(非线性决策边界)

展望结语

猜你喜欢

Coursera 机器学习 -- 分类 笔记 【第二周】

Classification(分类)

Hypothesis Representation(假设函数表达式)

Logistic Regression Model

Decision Boundary(决策边界)

Non-linear decision boundary(非线性决策边界)

展望结语

猜你喜欢

Coursera 机器学习 -- 分类笔记【第二周】