特征处理

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。 https://blog.csdn.net/jxq0816/article/details/82827338

模型中所用到的变量按能否直接运算分为两类。

如果一个变量能直接运算,则为定量变量。对于这类变量,可以直接在模型里使用它。但是这样的使用方法隐含了变量的边际效应恒定这样一个假设。当需要去除这个隐藏的限制时,则可以将定量变量通过分段的方式转化为定性变量使用。

如果一个变量不能直接运算,则为定性变量。为了能在模型里使用这类变量,通常将其转化为多个虚拟变量使用。但对于有序的定性变量,这样处理会损失掉变量本身的顺序信息。特别是当模型有多个有序定性变量时,损失的信息量就更多了。为了尽可能地保留有序定性变量的信息,可以通过Ridit score将定性变量转化为定量变量使用。

猜你喜欢

转载自blog.csdn.net/jxq0816/article/details/82827338