回忆录 - IKCEST首届“一带一路”国际大数据竞赛(2019)获奖经历

摘要

作为队长,我在2019年5月20日-2019年8月1日,共计两个半月的时间里率团队(几个本校的研究生)参加了百度大数据竞赛,并获得了18/2312top0.78%)的好成绩。此次比赛的主要内容是城市区域功能分类,是个多模态分类任务,内容包括图像识别和文本特征挖掘。

在参与这次比赛的过程中,我们队经历了不少挫折,也获得了不少收获。我们最终提出了图像-文本融合网络识别模型基于文本特征的投票器,拿到了初赛17,复赛18的成绩。

实现经历

我们首先从图片入手,用ResNeXt作为模型喂入图片,最后发现准确率保持在50%左右,效果不是很理想。

随后,我们仔细地检查了一遍图片,发现大约20%的遥感图片中雾霾严重,甚至存在大面积黑块,于是我们进行了一遍图片清洗,把含有黑块的图片从数据集中去除,同时对剩余的图片进行dehaze,这样一来,纯图片的准确率达到了55%

之后,我们把文本的时间序列信息提取出来,转化成128×24的图片,用DPN26进行训练。把图片和文本的识别器输出结果concat后喂入fc层,这也就是Net1的结构,此时的综合识别准确率为64%

接着,我们开始用stacking集成学习的方法来训练数据。通过对图片进行 TTA缩放上下采样加权,以及对文本进行特征提取等各种操作,我们获得了其他六个网络模型:Net2~Net7。同时我们把训练集数据分成5份进行交叉训练和识别,并把第一步网络获得的结果加权平均后用Xgboost进行二次训练。这一步之后识别的准确率提高到了76%

此时,我们发现自己和排名靠前的其他队伍在准确率上还有一定差距,同时结合bbs的信息。我们发现:用户对于不同地区的访问记录间存在一些关联,而这种关联是通过用户ID产生的,而此类信息通过时间序列模型是挖掘不到的

于是我们创造性地提出了基于单个用户在某地区出现次数的投票器,用于进一步挖掘文本特征,最终将准确率提高到了81.62%。虽然此后我们又提出了一个基于小时数的更强的投票器,但由于算力和时间的限制,没能实现。

通过人为对结果进行一定调整,我们队最终拿到了82.18%,也就是第18名的成绩。没能获得更好的名次,还是有一些遗憾

结语

这次比赛经历不仅提高了我的动手能力,促进了我的自学能力,培养了我对机器学习相关领域的兴趣。也让我学会了不少理论知识和实践技巧:在此期间,我对神经网络调参的相关技巧常用的集成学习方法主流的CNN网络框架、和文本特征工程的一般流程有了较为深刻的了解和掌握。这为我未来从事相关领域的学术研究打下了坚实的和实践基础。

相关信息

猜你喜欢

转载自blog.csdn.net/Flying_Dutch/article/details/106134801