机器学习笔记3--逻辑（Logistic）回归

关键字：回归，分类，sigma函数，惩罚项

虽然名字里有回归，但是这是一个分类问题

1.分类问题

此前的回归模型预测的y是一个连续值，但是分类问题里面的y是一个离散值，通常为0或者1，表示否或者是，分别代表负类和正类。更一般的情况是y可以取不止两个离散值。

2.定义

对于输出为0和1的分类问题，逻辑回归里输出的y不是离散的数，而是在0和1之间的，即[0,1]为输出的范围。

逻辑回归里面的输出函数记为，，其图像为：

这个叫sigma函数

虽然输出不是连续值了，但是输出可以看成Y=1的概率

3.决策边界（decision boundary）

3.1 前提规定

我们规定如果大于等于0.5，这就意味着y=1的可能性大于等于y=0的可能性，我们就认为y=1，由图像可知，此时x>=0.5，所以x>=0.5等价于y=1。对应的,x<0.5与y=0等价。

3.2 定义

如下图，决策边界就是中间的直线，分割两种情况，分别是y=0和y=1，这里的参数x是m个分量的组合

4.拟合逻辑回归

4.1 代价函数

这里的代价函数定义为：

显然这里的Cost不是一个线性函数，所以的图像这个时候大概是这样的：

这不是一个关于seta的凸函数，所以使用梯度下降法很难达到全局最优解

4.2 代价函数的改进

所以要改变Cost，这里定义如下：

cost function是惩罚项，惩罚项可以理解为预测错误时付出的代价是多少（比如实际上y=0,我们计算出的很接近为1，即预测为1，那么Cost的值就无限接近正无穷，这个时候预测错了，付出的代价极大。反而如果预测对了，就是为0，那么Cost就是0.代价为0，不需要付出代价）

这里的Cost是分段的，可以把他们合并

4.3 梯度下降法

之前讲的特征缩放也适用于逻辑回归

4.4 比梯度下降法更优的算法

共轭梯度法BFGS

L-BFGS

Conjugate gradient

优在哪？不用手动选择学习率alpha，因为算法每次迭代会自动选择合适自己的学习率

这些算法数值线性代数都讲过的

5.多元分类：一对多

多元分类就是指输出y有大于2个离散值

对于这种问题，就是第一次将Class1和其他的分开，第二次对Class1之外的分类，将Class2和剩下的分开，...,那么一共n个Class就需要分类n-1次。

预测：输入x，选择概率最大的一个Class为预测结果。

图片来自吴恩达网易云课堂机器学习系列