“人机大战”简单复盘

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/leayc/article/details/79786329

准备材料的时候又找了一下相关资源,发现已经有多个队伍公开方案或者开源代码了。

&1. 第一名的经验分享:https://zhuanlan.zhihu.com/p/33243415
&2. 第三名的代码开源,模块分得很清晰,推荐阅读:https://github.com/fuliucansheng/360
&3. 一份代码和总结,没公开名次:https://zhuanlan.zhihu.com/p/31963565

以及之前的第21名的代码:https://github.com/a550461053/BDCI2017-360

先说几点泛泛的感受。

  • 模型都差不多,而且由于任务跟“看山杯”类似,不少人借鉴了“看山杯”的获奖模型。
  • 单模型准确率是基础,ensemble 是锦上添花,对 TOP X 才有意义。
  • 模型怎么去设计,决定分数上限。虽然网络结构设计还是有点玄学,而且当事人解释的时候怎么看怎么觉得有马后炮意味,但对于没做出来的人,这之间的差距是实打实的。
  • Keras 很好用。尤其是如果跑大数据量和深度模型,直接用 Keras 会省很多力气。

1. 传统方法与深度模型融合

从他们的方案来看,网络模型是分数主导,贡献了至少90%,但基于规则和传统特征的方法也可以作为补充。只靠传统方法,第三个链接表示 F1 只有0.7。有人提到善用 FastText 最高可以到 0.84,已经是 TOP 10 的水平了。
分数归分数,不费时费力做专门的可视化,确实搞不清楚网络用数据中的什么信息来判断的。对于人来说,规则和传统方法当然更有底气。
从第一名的分享来看,他们是把规则和传统特征跟网络的倒数第二层连接起来,再常规地连一层线性分类器(softmax)实现的。多网络融合也可以采用这种方法。

2. 预处理

&3.中的处理方法应当是很标准的。使用全部语料训练 Word2Vec,而不是只用负样本。好处是能够得到尽可能多的数据的词典。虽然按理说负样本不应该用来训练词向量,但反过来想,负样本在总数据集中占比很高,无监督地学习负样本中的词向量,似乎也可以得到一些有用的词间关系。&3还另外用哈工大的 LTP 构造了分词+词性数据,从结果来看应该是有用的。
关于文本长度。比较通用的做法应该是计算了全样本长度的均值,大概1100个词。

另外,“看山杯”的时候有人试过“字向量”,但效果不好。这次我也试过,发现确实不行。原本觉得字与字之间的关系应当可以用 Word2Vec 来很好地建模,但结果确实不好。说不清为什么。
&3.使用的字向量方法是词性+字,模型有 0.89 的分数,确实很厉害了。

对了,跑分词的时候可以用 joblib 做线程并行,线程数不要超过你机器的线程上限。我玩了两次都把服务器搞崩了。Python 多线程好神奇啊。
跑网络的时候数据在内存里,计算在 GPU 上所以没感觉,跑脚本都是 CPU 在跑。尤其考虑 Python 的速度相对慢一点,我开始是直接逐行读文件同时做分词的,计算效率非常低。先把文件按格式做成数据集然后多线程跑分词这样会快好几倍。

3. 模型

模型就那么多。主要是 TextCNN 和 Attention 的东西,以及各种组合。Hierarchical Attention + CNN,HRCNN,都得研究一下。第一名用了所谓 C-GRU,说穿了就是卷积加循环模块。总之搭积木嘛,挨着试。
RNN 始终没怎么搞明白。看上去序列信息虽然 CNN 也成了主力,但 RNN 至少是个很好的次要模型,接下来还是得研究一下。

4. 训练

这是很多经验分享比较坑或者说无意中忽视掉的。这么干不好。很可能同样一个网络,两个人跑法不一样,一个第一,一个倒数都有可能。虽然套路也很固定,但经验不同结果就差很多。
文本数据需要的 epoch 相对少一点,&3用了15个,第八个上强行把 lr 减小到 1e-4,第十二个上放开 embedding 层的权重。每一个 epoch 都保存一次参数。

总结

  1. 比赛报名之前看一下题目和数据量,如果要跑 DNN,数据量还比较大(一般超过1G),没有好一点的 GPU 就不要参与了,纯属浪费时间。
  2. 360 的数据其实不算好,而且“生成文本”本身就是个比较难的课题。根据一些 EDA,有机械拼接的,有网络生成的,还有很多疑似错标的。比赛数据可以说小问题不断,大问题不少。另外据说决赛的时候第二还是第三的队伍因为跟 360 的评委有点纠纷直接被判为第五。好霸道啊。
  3. 所以这次的数据不适合用来学习。找一些小数据集,或者 Kaggle 这次的 Toxic Comments,才几十MB的文件。
  4. 套路一定要熟悉。多写代码多写代码多写代码。哪怕只用 Keras,数据处理、模型设计和调参一定要熟练,而且中间环节不要有错误。

之前看到的一份资料,文本分类常用模型都囊括进来了,推荐一下:
https://github.com/brightmart/text_classification

猜你喜欢

转载自blog.csdn.net/leayc/article/details/79786329