机器学习—SVM 和 LR

 

一、SVM和LR

二、聚类

三、树模型

一、SVM 和 LR

(1)svm只考虑分类面附近的点,即支持向量,所以对离群点不敏感;LR考虑所有样本点;

(2)非线性问题,在计算决策面时,svm只有支持向量参与了核函数;LR若引入核函数,那么每个样本都会参与,使就算量巨大;

(3)svm是结构风险最小化算法,就是在训练误差和模型复杂度之间寻求平衡,防止过拟合,从而达到真实误差的最小化。而LR需要额外在损失函数上加正则项。 所以,svm防止过拟合的效果更好;

(4)分类思想不同:lr是基于概率最大;svm是最大几何间隔;

1、LR

    逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法得到代价函数,运用梯度下降来求解参数,以达到分类的目的。

(1)梯度下降

    批梯度下降会获得全局最优解,缺点是在更新每个参数的时候需要遍历所有的数据,计算量会很大,并且会有很多的冗余计算,导致的结果是当数据量大的时候,每个参数的更新都会很慢。

    随机梯度下降是以高方差频繁更新,优点是使得sgd会跳到新的和潜在更好的局部最优解,缺点是使得收敛到局部最优解的过程更加的复杂。

    小批量梯度下降结合了sgd和batch gd的优点,每次更新的时候使用n个样本。减少了参数更新的次数,可以达到更加稳定收敛结果,一般在深度学习当中我们采用这种方法。

(2)为什么用极大似然函数?

    因为极大似然函数会取log,对数损失函数求解参数的速度比较快。 

(3)为什么我们还是会在训练的过程当中将高度相关的特征去掉?

参考:https://www.cnblogs.com/ModifyRong/p/7739955.html

        去掉高相关的特征会让模型有更好的解释性;提高训练速度;

(4)优缺点:

优点:模型简单,可解释性强;速度快;

缺点:准确率不高,因为模型简单,很难拟合数据额真实分布;难处理非线性的数据;常用于二分类;不能筛选特征,我们一般引入GBDT筛选特征,再用LR;

(5)为什么用sigmoid函数?

    将LR的概率函数转换成以 e 为底的指数函数,化简后的形式属于指数族分布,经过推导,预测函数h(x)为sigmoid函数形式;

sigmoid函数的输入为(负无穷,正无穷),输出在0~1之间,满足概率分布为0~1的要求;它是个单调上升函数,具有连续性;

参考:LR(逻辑回归) 为什么使用sigmoid函数

(6)参考链接:

猜你喜欢

转载自blog.csdn.net/sisteryaya/article/details/81025406
今日推荐