哑变量处理

dummyVars(formula, data, sep = “.”, levelsOnly = FALSE, fullRank = FALSE, …)
sep:因子变量名及其级别之间的可选分隔符。使用sep = NULL表示没有分隔符(即模型的正常行为)。

data4 <- read.csv("玩家玩牌数据.csv")
head(data4)
library(VIM)
aggr(data4,prop=FALSE,numbers = TRUE)

在这里插入图片描述
在这里插入图片描述

library(mice)
md.pattern(data4)

在这里插入图片描述
在这里插入图片描述

data4 <- data4[complete.cases(data4),]
md.pattern(data4)
data4$性别 <- as.factor(data4$性别)
data4$是否付费 <- as.factor(data4$是否付费)
library(caret)
str(data4)

在这里插入图片描述

dmy <- dummyVars(~.,data = data4)
trsf <- data.frame(predict(dmy,newdata = data4))
head(trsf)
colnames(trsf)[c(2,3,12,13)] <- c("女","男","没付费","付费")
sum(trsf$女)
range(data4$站内好友数)
data5 <- data4[data4$站内好友数<5,]
data5$站内好友数 <- as.factor(data5$站内好友数)#,)
dym.haoyou <- dummyVars(~站内好友数,data5)
trsf.haoyou <- data.frame(predict(dym.haoyou,data5))
head(trsf.haoyou)

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u010380670/article/details/84890641