关于onehot和哑变量(dummy)

这篇文章讲述比较清楚,哪些模型何时用one-hot,何时用dummy

搬砖:

回归模型虚拟变量个数的选择:
在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:

1 回归模型有截距:一般的,若该特征下n个属性均互斥(如,男/女;儿童/青年/中年/老年),在生成虚拟变量时,应该生成 n-1个虚变量,这样可以避免产生多重共线性。
这种模式即为one-hot编码

2 回归模型无截距项:有n个特征,设置n个虚拟变量
这种模式即为哑变量编码

发布了41 篇原创文章 · 获赞 14 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_43685844/article/details/100563838