大数据,云计算,架构,数据挖掘实战

数据挖掘大数据落地项目越来越多,以往一些分析师、工程师只是埋头训练模型,现在自媒体发布平台为这些幕后工作的人提供了展示的机会,我们在微信公号、博客站点、社群网站有幸能看到许多案例展示,及实战项目报告。对于正在学习和实践数据挖掘的人来说,这些资料非常有价值,可以从单个案例一窥当前大数据在不同行业落地应用的大致情况。

所以,小兵博客将搜集整理相关案例,发布与此,方便读者朋友集中阅读学习。

NO1.电信用户精准分群

关键词:电信行业、客户细分、决策树模型

经管之家论坛采访嘉宾兰锦池,他带来了一个电信用户分群案例。

业务问题背景:某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。

案例地址:⇒大数据分析实战案例:电信用户精准分群

NO2.高校大型活动就餐人数预测

关键词:行为预测、大数据、西安交通大学、小九大数据

业务问题背景:西北大学每年要为学生举办规模宏大的毕业生音乐晚会,参与人数可能多达数千人,学校三个校区总人数近3万人,到底有多少人会参加当天的毕业晚会,尤其是当天有多少学生会去学校食堂就餐这是一个有待挑战的问题。学校以往是通过各院系、职能部门、安保系统层层筛选申报参加晚会的人数,及预判可能到食堂用餐的人数,传统的方式耗时耗力。

分析的目标是,要通过大数据手段准确预测毕业晚会当天食堂用餐人数,要求误差不能超过100个人。

案例地址:⇒大数据分析实战案例2:高校大型活动就餐人数预测

持续更新,欢迎关注。

第二赛季:
第二赛季比赛改为了线上平台赋权的方式,只能用SQL去操作数据的方式让我很不习惯,而且在线上操作需要等待很长时间,最后在我快要放弃的时候,比赛突然开放了数据集,允许在线下进行操作,这让我又有了一点希望。

第二赛季的首次提交。

这一次提交,我们依然选择填了个历史中位数,由于更换了数据集,第一次提交效果就达到了0.3105,也进入了首页。

建模。

我们用了之前的建模方式,在可视化平台上用GBDT进行了建模,但是由于在线上平台真的很难调参,跑起来也很慢,我们的建模结果并不理想,效果仅达到了0.3050,这让我们感到很失望,毕竟在第一赛季用合理的方法建模效果可以提升将近10%的!最开始我们考虑原因可能是三个时间段同时建模,对效果的影响会比较大,但是后来分开建模后效果也提升的并不是特别明显。我想最重要的原因就是调参的问题吧,当然由于切换数据集的原因也是可能的。

开放平台。

某天我早上正因为熬夜早起而头痛时,老师突然发来消息,说是可以在线下去做了,喜大普奔。在用第一赛季效果不错的模型,换用第二赛季数据后,建模效果还是不怎么好,提升到了0.2712,离我们的预期MAPE还是差了很多。但是总归有了努力的方法,毕竟在线下的环境还是我们比较熟悉的,而在线上提取特征简直太困难了!

增加特征。

按照以往的套路,当我们没有可以提高模型的方法时,也就是能再提取特征了。我们参考了2017KDD CUP答辩PPT的做法,又陆陆续续提取了最大值,最小值,标准差,锋度,偏度等特征。但是加上这些特征对于模型的提升依然很缓慢,效果在一点点的提升,不过在当时看来已经没有什么能够提高效果的方法了,只能一点点的增加特征。

去噪。

对于中位数这种特征,先天就有防止噪声影响的特性,但是对于平均值尤其是最大最小值,及其容易受到噪声的影响。所以我对数据进行了一次3δ去噪,将太偏离正态分布的数据替换成了中位数,并没有选择直接剔除的原因是毕竟有些特征还是可以包容噪声的。而且不知道是不是增加了特征的原因,进行了去噪后的数据建模的效果得到了较为明显的提升。

ZSCORE变换

后来我们又知道了一个让数据集增加信息量而且正则化的方法,就是ZSCORE变换。进行了ZSCORE变换后效果提升的并不是特别明显,但是迭代的次数显然减少了,原来基本要4000步迭代完现在2500步基本就能迭代好,总体上对于效果的提升一般。

经验和教训。
基本上最大的问题还是线上线下的数据集构建的不好,代码写得太乱,还有就是没有作好记录。

总计以我的菜逼水平,到rank28已经很开心了。

猜你喜欢

转载自www.cnblogs.com/dsj1188/p/10061168.html
今日推荐