大数据，云计算，架构，数据挖掘实战

数据挖掘、大数据落地项目越来越多，以往一些分析师、工程师只是埋头训练模型，现在自媒体发布平台为这些幕后工作的人提供了展示的机会，我们在微信公号、博客站点、社群网站有幸能看到许多案例展示，及实战项目报告。对于正在学习和实践数据挖掘的人来说，这些资料非常有价值，可以从单个案例一窥当前大数据在不同行业落地应用的大致情况。

所以，小兵博客将搜集整理相关案例，发布与此，方便读者朋友集中阅读学习。

NO1.电信用户精准分群

关键词：电信行业、客户细分、决策树模型

经管之家论坛采访嘉宾兰锦池，他带来了一个电信用户分群案例。

业务问题背景：某省电信运营商e8套餐（宽带+固话）升级e9（宽带+固话+手机）的主要业务目标为针对e8客户加装电信C网号码并购买手机，升级为e9融合套餐或e9自主套餐用户。即，通过电信的自身的宽带客户资源，进行精准电话营销，促使用户购买手机，从而提升电信在手机市场的占有率。

案例地址：⇒大数据分析实战案例：电信用户精准分群

NO2.高校大型活动就餐人数预测

关键词：行为预测、大数据、西安交通大学、小九大数据

业务问题背景：西北大学每年要为学生举办规模宏大的毕业生音乐晚会，参与人数可能多达数千人，学校三个校区总人数近3万人，到底有多少人会参加当天的毕业晚会，尤其是当天有多少学生会去学校食堂就餐这是一个有待挑战的问题。学校以往是通过各院系、职能部门、安保系统层层筛选申报参加晚会的人数，及预判可能到食堂用餐的人数，传统的方式耗时耗力。

分析的目标是，要通过大数据手段准确预测毕业晚会当天食堂用餐人数，要求误差不能超过100个人。

案例地址：⇒大数据分析实战案例2：高校大型活动就餐人数预测

持续更新，欢迎关注。

第二赛季：
第二赛季比赛改为了线上平台赋权的方式，只能用SQL去操作数据的方式让我很不习惯，而且在线上操作需要等待很长时间，最后在我快要放弃的时候，比赛突然开放了数据集，允许在线下进行操作，这让我又有了一点希望。

第二赛季的首次提交。

这一次提交，我们依然选择填了个历史中位数，由于更换了数据集，第一次提交效果就达到了0.3105，也进入了首页。

建模。

我们用了之前的建模方式，在可视化平台上用GBDT进行了建模，但是由于在线上平台真的很难调参，跑起来也很慢，我们的建模结果并不理想，效果仅达到了0.3050，这让我们感到很失望，毕竟在第一赛季用合理的方法建模效果可以提升将近10%的！最开始我们考虑原因可能是三个时间段同时建模，对效果的影响会比较大，但是后来分开建模后效果也提升的并不是特别明显。我想最重要的原因就是调参的问题吧，当然由于切换数据集的原因也是可能的。

开放平台。

某天我早上正因为熬夜早起而头痛时，老师突然发来消息，说是可以在线下去做了，喜大普奔。在用第一赛季效果不错的模型，换用第二赛季数据后，建模效果还是不怎么好，提升到了0.2712，离我们的预期MAPE还是差了很多。但是总归有了努力的方法，毕竟在线下的环境还是我们比较熟悉的，而在线上提取特征简直太困难了！

增加特征。

按照以往的套路，当我们没有可以提高模型的方法时，也就是能再提取特征了。我们参考了2017KDD CUP答辩PPT的做法，又陆陆续续提取了最大值，最小值，标准差，锋度，偏度等特征。但是加上这些特征对于模型的提升依然很缓慢，效果在一点点的提升，不过在当时看来已经没有什么能够提高效果的方法了，只能一点点的增加特征。

去噪。

对于中位数这种特征，先天就有防止噪声影响的特性，但是对于平均值尤其是最大最小值，及其容易受到噪声的影响。所以我对数据进行了一次3δ去噪，将太偏离正态分布的数据替换成了中位数，并没有选择直接剔除的原因是毕竟有些特征还是可以包容噪声的。而且不知道是不是增加了特征的原因，进行了去噪后的数据建模的效果得到了较为明显的提升。

ZSCORE变换

后来我们又知道了一个让数据集增加信息量而且正则化的方法，就是ZSCORE变换。进行了ZSCORE变换后效果提升的并不是特别明显，但是迭代的次数显然减少了，原来基本要4000步迭代完现在2500步基本就能迭代好，总体上对于效果的提升一般。

经验和教训。
基本上最大的问题还是线上线下的数据集构建的不好，代码写得太乱，还有就是没有作好记录。

总计以我的菜逼水平，到rank28已经很开心了。