关于软件分词的几个问题总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bla234/article/details/50877246

最近初学数据挖掘之文本分析,第一步还是尝试着熟悉一下大致的流程,

关于采集方面的总结请详参之前发的那篇《关于火车头网络爬虫的几个常见问题


第二步是分词,视频教程中有几点值得注意的地方是,

(1)在合并完多个评论文件后,记得用word文档实现空行(^p^p)到空白的替换,防止rost分词系统读到空行就分词结束了

(2)在停用词表更新后应该重新在rost里面打开,防止更新的词表不能被读取使用


实践中存在的问题如下,

(1)首先是,用rost分词后没有出现词性标注,虽然按照那个视频的道理来说是没有也能实现后面的情感分析,但是我实操是

并未成功,后来还是有个朋友说用中科院的ICTCLAS2015分词系统,才实现了词性标注,然后再用rost的情感分析才分析成功

(2)未词性标注前的分词多次后,出现了rost一分析就error(有一次停用词表没有设置之后就一直崩了),删除后再次解压使用

(3)实际采集样本火车头显示是200条,但是分析完是300+条,原因可能是由于id未分离,而采集的时候也未采集完200个id,

因此造成介于200至400之间的一个数据显示

猜你喜欢

转载自blog.csdn.net/bla234/article/details/50877246
今日推荐