“AIIA”杯-国家电网-电力专业领域词汇挖掘

十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。

电力领域的词典构建——方法1(非监督学习)

        在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后利用比赛的原语料中词频的分布筛选排序关键词并得出最后的“电力方面的词典”(此版本前10000词的正确率是0.438)。之后我的优化思路是利用基于比赛语料训练好的词向量进一步筛选之前得出的“电力方面的词典”。但是,最后的结果收效甚微。今天的五支参赛队伍中也有一只队伍使用的方法是“种子词+Word2Vec”,联想到自己方法,我觉得我的非监督方法在想法和方法上有错误。思路上的错误是,在发现“电力方面的词典”的覆盖率只有50%(整个“电力方面的词典”)的情况下,没有积极拓展词典的覆盖率而是采用“Word2Vec”提纯的方法。是我错估了这个方法的效果,因为我做的最好效果是取出前1万词中6%不是电力领域的词,并把后1万种中6%的正确词给提取来放到前一万个中!不得不说这对算法的性能要求很高,确实不是首先的优化方法。同时,我当时只是想尽可能的排除前10000个词中的“非电力词”而没有提升后10000个词中的电力词,这样即使做的再好也只是把前43.8%的词集中到一起而对后6%的词的选拔没有任何帮助!另外在具体的操作过程中,对于前10000个词的筛选,我的种子词是前10000个词本身。可是我的种子词只有43.8%是真正的电力领域的啊!这就是说我的种子词有57%的词是非电力词,43%的词是电力的词而我要用它选出电力词的思路本身就是错的!

        基于以上的思路,采用Word2Vec优化的方法出来的结果是不好的!

电力领域的词典构建——方法2(监督学习)

        方法2的思路是采用是自动标注数据集加LSTM+crf的方法。其中,我们的语料采用的词典是由方法1得出的。可是不幸的是,我们的词典只覆盖了50%(2万大小)的语料。这样即使我们训练出模型后,我们的结果一定一定会差于43%(前10000词)。但是,我们却没有添加网上的电力词词典直接回标语料(失败!!!)!其次,在使用Bi-LSTM+crf训练语料的时候我们一开始使用的是基于词的标记。这种方法在训练的过程中相对而言没有什么大的问题,但是在标记比赛所给的10000篇语料的时候还是存在很大问题的。主要是分词的错误会减少语料中电力词汇的识别性能且常用分词工具在专业词的切分上效果通常更差!

        通过这次比赛感觉,自己在方法和思路上有很多欠缺,希望之后的自己可以越来越好!

猜你喜欢

转载自www.cnblogs.com/cxf-zzj/p/9778760.html