一、SVM 和 LR

（1）svm只考虑分类面附近的点，即支持向量，所以对离群点不敏感；LR考虑所有样本点；

（2）非线性问题，在计算决策面时，svm只有支持向量参与了核函数；LR若引入核函数，那么每个样本都会参与，使就算量巨大；

（3）svm是结构风险最小化算法，就是在训练误差和模型复杂度之间寻求平衡，防止过拟合，从而达到真实误差的最小化。而LR需要额外在损失函数上加正则项。所以，svm防止过拟合的效果更好；

（4）分类思想不同：lr是基于概率最大；svm是最大几何间隔；

1、LR

逻辑回归假设数据服从伯努利分布，通过极大似然函数的方法得到代价函数，运用梯度下降来求解参数，以达到分类的目的。

批梯度下降会获得全局最优解，缺点是在更新每个参数的时候需要遍历所有的数据，计算量会很大，并且会有很多的冗余计算，导致的结果是当数据量大的时候，每个参数的更新都会很慢。

随机梯度下降是以高方差频繁更新，优点是使得sgd会跳到新的和潜在更好的局部最优解，缺点是使得收敛到局部最优解的过程更加的复杂。

小批量梯度下降结合了sgd和batch gd的优点，每次更新的时候使用n个样本。减少了参数更新的次数，可以达到更加稳定收敛结果，一般在深度学习当中我们采用这种方法。

因为极大似然函数会取log，对数损失函数求解参数的速度比较快。

去掉高相关的特征会让模型有更好的解释性；提高训练速度；

优点：模型简单，可解释性强；速度快；

缺点：准确率不高，因为模型简单，很难拟合数据额真实分布；难处理非线性的数据；常用于二分类；不能筛选特征，我们一般引入GBDT筛选特征，再用LR;

将LR的概率函数转换成以 e 为底的指数函数，化简后的形式属于指数族分布，经过推导，预测函数h(x)为sigmoid函数形式；

sigmoid函数的输入为（负无穷，正无穷），输出在0~1之间，满足概率分布为0~1的要求；它是个单调上升函数，具有连续性；