赛题一览

A题分析

首先我只做数据挖掘的题，因此有 A 题和 D 题可供我选。什么？A 题是研究生组的，没关系，我照样淦。

首先 A 题是无人承运的定价分析的。问题是根据附件1（附件1是个 xlsx表格，里面有详细的数据，光特征就68个），确线路定价的影响因素，在根据这些影响因素，评价定价的效果。此是一二问。

第一问看起来不难，但是复杂就复杂在，定价是什么鬼（我不是白痴，请往下看）？我看到附件1后面还有一个叫“线路成本”的东西。然后我用定价减去成本，得到的几乎是负数。好的，如果定价是无人承运商给予司机的报酬，那么线路成本又是什么呢？难道是司机的花费吗？不可能，因为只有傻子才会接亏本的单。有人可能会反驳，司机事前不知道成本啊。但即便如此，也不会有司机经常去当冤大头把。那么线路成本是什么呢？是无人承运商所要支付的费用吗？如果是，那么定价首先是一个成本吧？因为要支付给司机的报酬嘛，所以肯定是成本。这么算下来，为什么成本还会比定价低了呢？按理说，应该高出很多或是一点点才对呀？那么线路成本究竟是什么呢？？？
在这里插入图片描述
抛开这个不谈，因为如果要分析线路的定价，成本肯定是不用考虑的。但是时间呢？(@ο@) 哇～看到这么多时间，我真的崩溃了，何况我 datetime 模块用得不熟。

不过当初我想到了一个好办法，就是直接从附件2的特征找相关的不就行了吗？因为附件2是要我们预测的嘛，这样可以省去一大笔功夫。如果要分析线性性，对于无序类别变量，可以用单因素方差分析，或卡方检验来检验有无相关性。如果是连续特征，我考虑用递归特征删除解决。

但第二问就有点难了，评价定价，呜呼~~ 由于题目要保证成本和交易时间最低，因此我觉得可以从这两个方面下功夫。给出一个定价，首先他要低于成本，这样就可赚更多的钱（这里我怀疑成本和定价都是“成本”，不过他们分开算的）。而且，交易时间也要尽量少才行。

因此，我考虑把定价低于成本很多，交易时间很短的数据提取出来，构成一个新的数据集。再在第一问的基础上，训练一个用来预测新数据集定价的模型。由于训练集的定价低、时间短，因此该模型预测出来的定价大概率是最优定价。于是，把这个机器学习模型用在其他数据中，然后根据预测定价和实际定价，来定义它的评分就行了。

第三问根据附件2的表格，给出三个调价。首先，我考虑上述的定价低、时间短模型的预测输出作为第一定价。之后，在用附件1训练一个定价高，时间短模型，作为第二定价；再用整个附件1训练模型，作为第三定价。至于成本，有个耐人寻味的地方，就是题目称成本为成本定价。这让我有些担忧，居然成本也是一个定价？？？？？？不管了，直接考虑整个附件1与成本训练一个模型，预测、得了！！ A题搞定。

D题分析

同样是数据挖掘，D题实际上更有难度。为什么？因为年轻人往往比老年人更厉害，此是其一，赛题组怕研究生做不出来，进而怀疑人生也是有的。其二，D题的数据量庞大，大概有70 W条，一个计算机的内存才多大。其三，数据是时序的，小类套着 skc，skc旗下全都是时序数据，城市套路深，你说呢？其四，我感觉数据库是从某家企业的数据库收集过来的，为什么这么说呢？主键的痕迹很明显，这些表格明显是为数据库设计的。因此，这道题真的很贴近实际！！！

综上，D题实际上非常、非常难。比起 A 题这种靠概念的小儿科题目，D题更具有挑战性，而且直击机器学习的难题——序列预测！！

D题做法

第一问是怎么做的？

第一问：找出节假日内，影响目标 skc 销量的诸多因素。包括：库存、销售方式、折扣等。

对于库存，只要将附件3 追加进附件1 中就可以了，这是数据库的连接操作。一个方法是用 mysql，先保存到数据库，再用查询语句。或者是用万能的 Python，其 Pandas 模块的 join merge concat 函数，都是数据表格进行联接操作的绝佳选择。

对于销售方式，我这里考虑：销售方式与所属小类挂钩。不同所属小类的销售方式不同，属于同一小类的销售方式一样。于是，为了判断所属小类与销量是否有关，可以采用单因素方差分析的方法。

对于折扣，可以考虑将附件2 使用数据库操作，追加到附件1中，得到标价。再用销售流水里的销售额，除以销售量，得到平均售价。最后，根据售价和标价，求出折扣。从而完成数据的整理。部分数据如下所示：
在这里插入图片描述

之后，可以得出 skc 的销售特征，包括：库存、所属小类、标价、平均售价、折扣。当然，里面包含缺失项，这是很正常的，不可能每个表格都有相应的库存、标价、所属小类数据。因此，对于缺失项，我考虑进行按行删除。

前面已经用单因素方差分析，得出所属小类对销量有影响。这里，用递归特征删除的方法，使用线性回归模型，结合库存、标价、售价、折扣来预测销量。之后，每次删除一个特征，如果模型拟合效果降低，则回滚删除操作。直到每个特征都被遍历过为止。最后得出：售价可以删除。除此之外，还得到了一个关于销量（因变量）和库存、标价、折扣（自变量）的线性回归模型。（可以说是完成了如何影响的研究吧！）

第二问、第三问是怎么做的？

第二问、第三问是要求目标小类在 10月 01 日三个月后（13周，其实就是到 12月 31日啦），预测销量的 MAPE。笔者根据 MAPE 公式，最后推导出第二问、第三问要求的，其实是一个问题：根据 10月 01日之前的数据，预测之后的周销量。这不，又是一个机器学习问题。

但是，这个机器学习可比 A 题难了好几倍。A题的难点在于特征的处理，至少它的数据是静态的。某条数据总不可能与隔壁老王，不，隔壁的数据有关系吧。但是 D 题就不同啦，你细品。根据 10月01日之前的数据，预测之后的数据。这不是序列学习还会是什么？但是，除了这点以外，他的难点在于，每个 skc 都是一个子序列呀！而且数据实在太多了、太散了呀。如果用 Python 来整理数据，可以想象，要花费多少精力和精神！！！！

根据问题一，预测销量可以用小类、折扣、标价、库存，另外，还外带了一个当天是否属于节日（这个也可以分析出来，是对销量有影响的。）怎么弄呢？对于小类，用 One-hot 编码。是否属于节日是一个二值变量，可以不用预处理。其余的数值连续型变量，可以用 Zscore 标准化。

之后，就是训练模型咯~

首先，一开始由于缺失数据太多了，我删了很多，导致时序性被破坏得不成样子。因此，我就把数据以周为单位整理了，对于节日，只要该周内包含一天的节假日，就设为1。经过如此，处理过后，数据还是有 1 W。

一开始，我还天真地想着是否可以忽略这种时序性（熬夜熬傻了吧）。然后就用便了几乎所有的机器学习模型呀，注意是几乎所有的机器学习（不包括神经网络）。最终得出决策树效果最好，但MAPE 大于 1，呵呵。

那么神经网络呢？用了一个非常复杂的，神经节点数大约 2000 个的 BP神经网络，跑呀跑呀。结果出来，MAPE 还是 1点多，比决策树好那么一点点，一点点！

最后，我开窍了，用了时序神经网络 LSTM，结果呢？用了节点数为30 的、只包含一层隐藏层的 LSTM，得出来 MAPE 为 0.0013，几乎没有误差呀。天呀！！！！！！！！

最终小结

笔者认为，D 题作为研究生的题目，其实会更好。虽然世界上的“烟酒生”非常多，但大佬型的研究生，是我们本科生难以比拟的。不让他们写 D 题，实在有点可惜了，是真的可惜了。我感觉 A 题作为一道数据挖掘的题，是不合格的。首先他集合了太多专业知识，不是这个领域，或对这个行业没有了解的人，是做不来的。就比如我吧，一开始看到这题以为多难，其实细细分析，出了里面模棱两可的什么成本、定价、成本定价这些搞不懂外，其余的思路倒是一望而知，洞烛无疑。

虽然我很想写一下 A 题，让改卷老师吃惊一下，但是 D 题的难度吸引了我。人总是要挑战的。D题看似简单，其实很贴近实际。如同上面分析的，它的数据好像是直接从企业的数据库挖出来的。就比如只会 Matlab 和 SPSS 的小白，这种题绝对是做不来的。另外，D题的表格非常多，这很考验大家的数据的组织能力。如果没有学过数据库（没学过数据库就别选数据挖掘啦），恐怕要花费很多功夫，才能把数据拼接成一个表格。另外，D题不是静态数据，这一点与傻瓜 A 题不同。他直击当前的机器学习比较新的领域——序列预测（2015年开始热门起来）。对于 A 题，虽然没做过，但是我相信，如果我要做，除了特征预处理难住我以外，那种程度的数据挖掘，我绝对没有问题的（无外乎机器学习，不行就 BP 神经网络，再不行？CNN，再不行？特征预处理再来一下）。

因此，我感觉 A 题像考概念，考知识储备，考无中生有（就比如第二问叫你评价，评价指标得自己定吧）。D题考技术、操作，考的是技术储备，耐心和毅力（编程中会有很多困难，而且神经网络也很难训练，并且要注意底层实现，不然内存说不定就爆了，我本人就爆了大约3次左右，中间一次蓝屏，伤啊！）因此，希望 Mathorcup 赛题方，好好研究赛题。最好是实现做一下，不然就会出现本届的笑话了。赛方的各位，不要把专科、本科看得比研究生还厉害呀！！！ A 题这么简单，居然，╮(╯▽╰)╭。

最后，希望大家像我一样，追逐困难。不要轻易向容易妥协。也不要相信权威，自己分析一下，才会知道什么是难、什么是不难。

2020MathorCup数学建模比赛A题D题思路

文章目录