线性回归和逻辑回归常见问题

1.逻辑斯蒂回归推导

2.简述一下线性回归

3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值？

最大似然估计的核心是让所采样的样本出现的概率最大，利用已知的样本情况，反推使其最有可能发生的模型参数。对于逻辑回归，样本已经采样了，使其发生概率最大才是符合逻辑的。

4.逻辑回归是线性模型吗？

逻辑回归是广义的线性模型，就是在线性回归基础上加了一个非线性映射。

5.逻辑回归做分类的样本应该满足什么分布？

假设数据服从伯努利分布，二项分布就是进行n次伯努利分布，二项分布的期望是np, 方差是npq

6.逻辑回归输出的值是0到1之间的值，这个值是真实的概率吗？

不是，实际上反应的是该点到划分线的距离，但很多地方会认为它是一个接近真实概率的值。

7.逻辑回归与线性回归的联系和区别？

联系：逻辑回归是在线性回归上添加一个函数映射得到的。

区别：数据假设不同；逻辑回归用来分类，线性回归用来预测（输出实质变量）；线性回归用MLE求解参数，线性回归用最小二乘法来求解（其实这一点也不算区别，线性回归最小二乘法也是由MLE推导来的）。

8.逻辑回归会发生过拟合吗？如何解决？

会，原因可能是样本数量少；数据不规范；特征数量过多；

解决方法：增加样本；数据重新清洗；减少特征数量；减少迭代次数（early stop），适当加大学习率；正则化；融合几个模型；

9.什么是特征离散化和特征交叉？

特征离散：当特征值的大小相加没有实际意义时，例如年龄，只需要知道年龄段即可，具体的一两岁差别并不关键。还有不同特征的值之间可能存在较大的数值差别，比如身高和年龄，在类似线性回归里直接相加减就不合适。所以需要特征离散，把连续的特征离散化，例如，将连续的年龄分为有限的年龄段，然后one-hot。

特征交叉：可以引入特征交互，即引入非线性。以离散特征为例，两个特征：年龄和性别，可以组合成年龄_性别的一个新特征，比如M_18，F_22等等，然后再对这个特征做one hot编码，即可得到新的特征属性值。

10.逻辑斯特回归为什么要对特征进行离散化？

问题9中特征离散的两个原因。

特征离散后，便于特征值的扩展，模型的迭代。

离散后的特征鲁棒性强，比如年龄段，当特征值有偏差时不会产生太大的影响。

11.在逻辑回归模型中，为什么常常要做特征组合（特征交叉）？

逻辑回归本质上是个线性模型，线性模型对非线性关系的描述不够，特征交叉可以加入非线性表达，增强模型的表达能力。

12.逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响？

13.为什么逻辑回归在训练的过程当中将高度相关的特征去掉？

14.逻辑回归最优化过程中如何避免局部极小值？

15.线性回归的损失函数里面为什么常用平方形式, 而不是1次方，3次方，4次方或者绝对值？

16.逻辑回归特征系数的绝对值可以认为是特征的重要性吗？

17.如何使用逻辑回归实现多分类？

逻辑回归推导

18.逻辑回归的损失函数为什么要使用极大似然函数作为损失函数？

19. 逻辑回归参数归一化是否对结果有什么影响吗？

20.逻辑回归有哪些优缺点