摘要

作为队长，我在2019年5月20日-2019年8月1日，共计两个半月的时间里率团队（几个本校的研究生）参加了百度大数据竞赛，并获得了18/2312（top0.78%）的好成绩。此次比赛的主要内容是城市区域功能分类，是个多模态分类任务，内容包括图像识别和文本特征挖掘。

在参与这次比赛的过程中，我们队经历了不少挫折，也获得了不少收获。我们最终提出了图像-文本融合网络识别模型和基于文本特征的投票器，拿到了初赛第17，复赛第18的成绩。

实现经历

我们首先从图片入手，用ResNeXt作为模型喂入图片，最后发现准确率保持在50%左右，效果不是很理想。

随后，我们仔细地检查了一遍图片，发现大约20%的遥感图片中雾霾严重，甚至存在大面积黑块，于是我们进行了一遍图片清洗，把含有黑块的图片从数据集中去除，同时对剩余的图片进行dehaze，这样一来，纯图片的准确率达到了55%。

之后，我们把文本的时间序列信息提取出来，转化成128×24的图片，用DPN26进行训练。把图片和文本的识别器输出结果concat后喂入fc层，这也就是Net1的结构，此时的综合识别准确率为64%。

接着，我们开始用stacking和集成学习的方法来训练数据。通过对图片进行 TTA、缩放、上下采样、加权，以及对文本进行特征提取等各种操作，我们获得了其他六个网络模型：Net2~Net7。同时我们把训练集数据分成5份进行交叉训练和识别，并把第一步网络获得的结果加权平均后用Xgboost进行二次训练。这一步之后识别的准确率提高到了76%。

此时，我们发现自己和排名靠前的其他队伍在准确率上还有一定差距，同时结合bbs的信息。我们发现：用户对于不同地区的访问记录间存在一些关联，而这种关联是通过用户ID产生的，而此类信息通过时间序列模型是挖掘不到的。

于是我们创造性地提出了基于单个用户在某地区出现次数的投票器，用于进一步挖掘文本特征，最终将准确率提高到了81.62%。虽然此后我们又提出了一个基于小时数的更强的投票器，但由于算力和时间的限制，没能实现。

通过人为对结果进行一定调整，我们队最终拿到了82.18%，也就是第18名的成绩。没能获得更好的名次，还是有一些遗憾。

结语

这次比赛经历不仅提高了我的动手能力，促进了我的自学能力，培养了我对机器学习相关领域的兴趣。也让我学会了不少理论知识和实践技巧：在此期间，我对神经网络调参的相关技巧、常用的集成学习方法、主流的CNN网络框架、和文本特征工程的一般流程有了较为深刻的了解和掌握。这为我未来从事相关领域的学术研究打下了坚实的和实践基础。

回忆录 - IKCEST首届“一带一路”国际大数据竞赛(2019)获奖经历

摘要

实现经历

结语

相关信息

猜你喜欢