【天池】新人赛-快来一起挖掘幸福感!

step_1:目标确定

  通过问卷调查数据,选取其中多组变量来预测其对幸福感的评价。

step_2:数据获取

  连接:

    https://tianchi.aliyun.com/competition/entrance/231702/information

  下载:

    train_set:happiness_train_complete.csv

    test_set:happiness_test_complete.csv

    index:文件中包含每个变量对应的问卷题目,以及变量取值的含义

    survey:文件是数据源的原版问卷,作为补充以方便理解问题背景

step_3:train_set数据清洗和整理

  使用matplotlib.pyplot依次画出id和其它列的scatter图

  

  通过图对数据进行操作:

扫描二维码关注公众号,回复: 5445932 查看本文章
  • happiness是样本标签(预测模型的真实值),通过问卷发现其类别只有1,2,3,4,5,通过图发现有-8,应当删除值为-8这些噪音数据

这是一个分类问题初步定为使用KNN算法来进行建模

猜你喜欢

转载自www.cnblogs.com/jp-mao/p/10487082.html