分类问题(下)
3.SVM分类
支持向量机是一种有监督学习方法,主要思想是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。
线型可分支持向量机与硬间隔最大化
线型可分支持向量机与软间隔最大化
非线性支持向量机与核函数
SVM的优点:
- 相对于其他训练分类算法不需要过多的样本,并且由于SVM引入了核函数,所以SVM可以处理高维样本
- 结构风险最小。这种风险是指分类器对问题真实模型的逼近与问题真实解之间的累积误差
- 非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也叫乘法变量)和核函数技术来实现,这一部分也正是SVM的精髓。
4.逻辑回归
logistic回归是一个分类算法,它可以处理二院分类以及多元分类。首先逻辑回归构造广义的线性回归函数,然后使用sigmoid函数g(z)将回归值映射到离散类别。
为什么要使用sigmoid函数?
Sigmoid曲线在中心附近增长速度较快,在两端增长速度较慢,取值在0-1之间。
1.它的输入范围是负无穷到正无穷,二输出刚好为(0,1),正好满足概率分布为(0,1)的要求。从贝叶斯的角度看,只要类条件概率服从指数分布,都可以退出后验概率为sigmoid函数形式。
2.他是一个单调上升的函数,具有良好的连续性,不存在连续点。微分形式简单。
为什么要用对数拟然损失函数?
5.逻辑回归与最大熵模型
熵是随机变量不确定性的度量,不确定性越大,熵值就越大。
德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中的分部均匀程度,能量分部的越均匀,熵就越大。
例子:你每次把耳机整理好,放入口袋中,下次再拿出来已经乱了。让耳机线乱掉的看不见的力就是熵力,耳机线喜欢变成更混乱。
数学上解决问题最漂亮的方式就是最大熵模型。简单说,就是保留全部的不确定性,将风险降到最小。
最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不做任何主观假设。(概率分布最均匀,预测的风险越小,不要把鸡蛋放在同一个篮子里)
逻辑回归是最大熵的特殊情况。(对数线性模型)
最大熵的特点:
形式上看,它非常简单,非常优美。
效果上看,唯一一种既能满足各个信息源的限制条件,又能保证平滑性的模型。
计算量巨大,在工程上实现方法的好坏决定了模型的使用与否。
6.集成学习
集成学习是通过多个弱分类器集成在一起,使他们共同完成学习任务,构建一个强分类器。潜在哲学思想是“三个臭皮匠赛过诸葛亮”。
理论基础:
强可学习:在PAC学习框架中,一个概念,如果存在一个多项式的学学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习。
弱可学习:如果存在一个多项式的学习算法能够学习它,学习的正确率比随机猜测好,那么就称这个概念是弱可学习。
Schapire证明强可学习与弱可学习是等价的,也就是说,在PAC学习框架下,一个概念强可学习的充分必要条件是这个概念弱可学习的。
两类学习方法:
bagging
boosting
6-1.bagging
bagging:基于数据随机重抽样的分类器构建方法
- 利用bootstrap方法从整体数据集中采取有效放回抽样得到N个数据集。
- 在每个数据集上学习出一个模型。
- 利用N个模型的输出投票得到最后的预测结果。
6-2.boosting
基于错误提升分类器的性能,通过集中关注被已有分类器分类错误的样本,构建新的分类器。
- 初始的分布因为等概率分布
- 每次循环后提高错误样本的分布概率,分错的样本在训练集中所占权重增大,使得下一次循环的基分类器能够集中力量对这些错误样本进行判断
- 计算分类器的权重,识别率越高的及分类器权重越高,识别率越低的基分类器权重越低。
严格意义上来说,这不算一种机器学习算法,而更像一种优化手段或者决策,它通常是结合多个简单的若机器学习算法,去做更可靠的决策,类似于开会做决策
bagging与boosting
都采用采样-学习-组合的方式,不同在于:
-
bagging中每个训练集互不相关,也就是每个基分类器互不相关,二Boosting中训练集要在上一轮结果上进行调整,也使得其不能进行并行计算
-
bagging中预测函数时均匀平等的,但在boosting中预测函数是加权的
优点:
当前最先进的预测几乎都要使用算法集成。它比使用单个模型预测出来的结果要精确的多,在各大竞赛中得到了普遍应用。