Python机器学习：回归效果评价

回归模型通常是根据最小拟合误差训练得到的模型，因此使用预测值与真实值的均方根误差大小，就能很好地对比和分析回归模型的预测效果。但仅仅分析这是不够的，还有以下几个指标等。

模型的显著性检验
建立回归模型后，我们首要关心的就是获得的模型是否成立，那么就要进行模型的显著性检验。模型的显著性检验主要是F检验。在一些库的回归分析输出结果中，会输出F-statistic值（F检验的统计量）和Prob(F-statistic)（F检验的P值）。如果 $P ro b < 0.05$ ，说明在置信度为95%时，可以认为回归模型是成立的；若 $P ro b > 0.1$ ，则说明回归模型整体上没有通过显著性检验，模型不显著，需要进一步调整。
$R^2$ （R-squared）
R-squared在统计学中又叫决定系数，用于度量因变量的变异中可由自变量解释部分所占的比例。在多元回归模型中，决定系数的取值范围在[0,1]之间，取值越接近1，说明回归模型的拟合程度越好，模型的解释能力越强。Adjust R-squared表示调整后的决定系数，是对决定系数的一个修正。
AIC和BIC
AIC又称赤池信息准则，BIC又称贝叶斯信息度量，两者均是评估统计模型的复杂度，取值越小相对应的模型越好。
系数显著性检验
在模型合适的情况下，需要对回归系数进行显著性检验，这里的检验是t检验。针对回归模型的每个系数的t检验，如果相应的 $P ro b < 0.05$ ，说明该系数在置信度为95%的水平下，系数是显著的；如果系数不显著，说明对应的变量不能添加到模型中，需要对变量进行筛选，重新建立回归模型。
Durbin-Watson检验（D.W检验）
D.W统计量是用来检验回归模型的残差是否具有自相关性的统计量，取值在[0,4]之间，数值越接近2说明具有自相关性，越接近4说明残差具有越强的负自相关性，越接近0说明残差具有越强的正自相关性。如果模型的残差具有很强的自相关性，则需要对模型进行进一步调整。
条件数（Cond.No.）
条件数是用来度量多元回归模型中，自变量之间是否存在多重共线性的指标。条件数取值是大于0的数值，值越小，越能说明自变量之间不存在多重共线性问题。一般情况下， $C o n d . N o . < 100$ 说明共线性程度小；如果 $100 < C o n d . N o . < 1000$ ，则存在较多的共线性；若 $C o n d . N o . > 1000$ ，则存在严重的多重共线性，可以使用逐步回归、主成分回归、LASSO回归等方式调整模型。

来自《Python机器学习与算法》一书，作者：孙玉林/余本国

Python机器学习：回归效果评价

猜你喜欢