Competition:2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_41185868/article/details/86480769

Competition:2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码

竞赛相关信息

竞赛背景

        为贯彻习近平主席在十九大报告中关于“推动互联网、大数据、人工智能和实体经济深度融合”以及“善于运用互联网技术和信息化手段开展工作”等讲话精神,引导高校在校生学习掌握计算机与互联网知识,提高计算机的技能应用,中国软件行业协会培训中心将举办全国大学生计算机技能应用大赛。大赛旨在增强广大在校大学生的IT应用技能,对于进一步落实学校培养应用型人才的目标要求,培育创新创业人才、促进产学研相结合有着重要意义。

        当今社会,房屋租金由装修情况、位置地段、户型格局、交通便利程度、市场供需量等多方面因素综合决定,对于租房这个相对传统的行业来说,信息严重不对称一直存在。一方面,房东不了解租房的市场真实价格,只能忍痛空置高租金的房屋;另一方面,租客也找不到满足自己需求高性价比房屋,这造成了租房资源的极大浪费。

        本次计算机技能大赛中的大数据赛题将基于租房市场的痛点,提供脱敏处理后的真实租房市场数据。选手需要利用有月租金标签的历史数据建立模型,实现基于房屋基本信息的住房月租金预测,为该城市租房市场提供客观衡量标准。

组织架构: 主办单位:中国软件行业协会培训中心 承办单位:全国百家高校团委、学生会、计算机类社团 协办单位:我爱竞赛网、DataCastle数据城堡、新思路教育

任务与数据

          数据为某地4个月的房屋租赁价格以及房屋的基本信息,我们对数据做了脱敏处理。 选手需要利用训练集中的房屋信息和月租金训练模型,利用测试集中的房屋信息对测试集数据中的房屋的月租金进行预测。

          数据分为两组,分别是训练集和测试集。 训练集为前3个月采集的数据,共196539条。 测试集为第4个月采集的数据,相对于训练集,增加了“id”字段,为房屋的唯一id,且无“月租金”字段,其它字段与训练集相同,共56279条。 训练集所含字段如下:

2018年全国大学生计算机技能应用大赛

住房月租金预测大数据赛(付费竞赛)
 

数据集处理前后

1、训练集、测试集


2、FE处理后的训练集

输出结果

1、测试集经过模型训练后输出的结果

设计思路

1、处理的【小区房屋出租数量】列为空值的思路

2、处理数据

2、总思路

 

 

 

核心代码

代码运行输出

[LightGBM] [Warning] feature_fraction is set=0.6, colsample_bytree=1.0 will be ignored. Current value: feature_fraction=0.6
[LightGBM] [Warning] min_data_in_leaf is set=18, min_child_samples=20 will be ignored. Current value: min_data_in_leaf=18
[LightGBM] [Warning] min_sum_hessian_in_leaf is set=0.001, min_child_weight=0.001 will be ignored. Current value: min_sum_hessian_in_leaf=0.001
[LightGBM] [Warning] bagging_fraction is set=0.7, subsample=1.0 will be ignored. Current value: bagging_fraction=0.7

相关文章

Competition:2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/86480769
今日推荐