线性回归相关面试题

0.其他人的博客
其他人的博客
1.线性回归要求因变量服从正态分布?
线性回归要求因变量服从正态分布
2.LASSO和RIDEG相比较
添加链接描述
3.小汇总
4.小汇总

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
上面是参考链接,下面是逐个分析。
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++

1.简单的介绍一下线性回归。

是一种预测模型,利用各个特征的数值去预测目标值。线性回归的主要思想是给每一个特征分配一个权值,最终的预测结果是每个特征值与权值的乘机之和再加上偏置。所以训练的目标是找到各个特征的最佳权值和偏置,使得误差最小。线性回归的假设前提是噪声符合正态分布。线性回归也可以做分类,但是效果不好。

2.线性回归的损失函数 && 为什么使用?

3.线性回归要求因变量符合正态分布?

是的。线性回归的假设前提是特征与预测值呈线性关系,误差项符合高斯-马尔科夫条件(零均值,零方差,不相关),这时候线性回归是无偏估计。噪声符合正态分布,那么因变量也符合分布。在进行线性回归之前,要求因变量近似符合正态分布,否则线性回归效果不佳(有偏估计)。

4.如果判断数据是否符合正态分布?将数据转化成符合正态分布的方法。

看一下这个非正态转化成正态
看峰度和偏度。若偏度大于3倍标准差,则需要进行处理。
偏度大于3倍标准差,可以进行log变换。
2-3倍,可以进行根号处理。

5.LASSO回归和RIDGE回归的使用目的和使用场景。

解决普通线性回归过拟合问题。解决方程求解法中的非满秩矩阵无法求解问题。约束参数。

6.线性回归求解方法

(1)公式法,损失对w和b进行求导,倒数为0,然后求解w和b。(需要时满秩矩阵,样本数量要大于特征数量)
(2)优化方法,初始化w和b,然后使用优化方法不断进行优化求解。通常使用梯度下降法。

7.线性回归的五大假设

给大佬跪下
1.特征和标签呈线性关系。
2.误差之间相互独立
3.自变量相互独立
4.误差项的方差应为常数
5.误差呈正态分布

8.线性回归不好的原因

1.普通线性回归易过拟合,使用LASSO或者RIDGE回归试试.
2.数据不符合线性回归的假设。
3.特征工程要不再搞搞?

9.简要介绍一下线性回归处理步骤,怎么确定因变量与自变量间线性关系,什么情况下可停止迭代,怎么避免过拟合情况?

一般来说缺失值处理、类别变量数值化,异常值处理,连续特征离散化(数据分桶)等等,当两次迭代所带来的增益小于事先给定的阈值时,或者达到事先设定的最大迭代次数,则停止迭代过程,过拟合没法避免只能说是尽量降低过拟合的影响,通过l1、l2正则化、减少特征的数量、增大样本的数量等等。

10.LASSO和RIDGE谁更好

答:你可以引用ISLR的作者Hastie和Tibshirani的话,他们断言在对少量变量有中等或大尺度的影响的时候用lasso回归。在对多个变量只有小或中等尺度影响的时候,使用Ridge回归。

从概念上讲,我们可以说,Lasso回归(L1)同时做变量选择和参数收缩,而ridge回归只做参数收缩,并最终在模型中包含所有的系数。在有相关变量时,ridge回归可能是首选。此外,ridge回归在用最小二乘估计有更高的偏差的情况下效果最好。因此,选择合适的模型取决于我们的模型的目标。
实际回答,都试一下不就完了吗

11.选择题

下列关于线性回归说法错误的是(D)
A.在现有模型上,加入新的变量,所得到的R^2的值总会增加
B.线性回归的前提假设之一是残差必须服从独立正态分布
C.残差的方差无偏估计是SSE/(n-p)
D.自变量和残差不一定保持相互独立

12.为什么进行线性回归前需要对特征进行离散化处理。

1.离散化操作很easy,特征离散化之后易于模型的快速迭代。
2.稀疏矩阵计算快,省内存。
3.鲁棒性强。单个特征数值过大或者过小对结果的影响会被降低。
4.可以产生交叉特征(相当于非线性了)
5.模型的稳定性加强了。
6.简化了模型,相当于降低了过拟合的风险。

猜你喜欢

转载自blog.csdn.net/weixin_44414593/article/details/107721467