关于软件分词的几个问题总结 - 代码天地

关于软件分词的几个问题总结

其他 2019-04-30 10:41:01 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/bla234/article/details/50877246

最近初学数据挖掘之文本分析，第一步还是尝试着熟悉一下大致的流程，

关于采集方面的总结请详参之前发的那篇《关于火车头网络爬虫的几个常见问题》

第二步是分词，视频教程中有几点值得注意的地方是，

（1）在合并完多个评论文件后，记得用word文档实现空行（^p^p）到空白的替换，防止rost分词系统读到空行就分词结束了

（2）在停用词表更新后应该重新在rost里面打开，防止更新的词表不能被读取使用

实践中存在的问题如下，

（1）首先是，用rost分词后没有出现词性标注，虽然按照那个视频的道理来说是没有也能实现后面的情感分析，但是我实操是

并未成功，后来还是有个朋友说用中科院的ICTCLAS2015分词系统，才实现了词性标注，然后再用rost的情感分析才分析成功

（2）未词性标注前的分词多次后，出现了rost一分析就error（有一次停用词表没有设置之后就一直崩了），删除后再次解压使用

（3）实际采集样本火车头显示是200条，但是分析完是300+条，原因可能是由于id未分离，而采集的时候也未采集完200个id，

因此造成介于200至400之间的一个数据显示

猜你喜欢

转载自blog.csdn.net/bla234/article/details/50877246

关于软件分词的几个问题总结

关于LVS几个问题总结

关于软件测试的几个问题你知道多少？

关于seleium运用中几个问题的总结

关于Spark的几个问题

关于上线的几个问题

关于IPMI的几个问题

关于iReport的几个问题

关于Pandas的几个问题

关于maven的几个问题

关于 layui 的几个问题

关于指针的几个问题

关于java的几个问题

关于mybatis的几个问题

关于进程的几个问题

关于cache的使用时的几个问题

关于监控数据的几个问题。

关于Java与C类型的几个问题

关于Thread.sleep的几个问题

关于分布式的几个问题

关于java文件递归的几个问题

关于 MongoDB 复制集的几个问题

关于虚拟机的几个问题？

关于c的头文件的几个问题

关于view事件体系的几个问题

kernel/uboot关于defconfig的几个问题？

[并发编程]-关于 CAS 的几个问题

关于人工智能的几个问题

Linux中关于samba的几个问题

关于Google Play的几个问题的回答

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)