版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013421629/article/details/82428539
使用Jieba词性分类
- Jieba下进行词性分类非常简便。
# -*- encoding=utf-8 -*-
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for word, flag in words:
print('%s, %s' % (word, flag))
以经典句子为例,“我爱北京天安门“,词性分类的结果为:
我 /r
爱 /v
北京 /ns
天安门 /ns
词性
词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。
常见词性分类
词性分类又叫词性标注(Part-Of-Speech tag, POS-tag),常见的词性标准类型如下:
1、名词
- n 名词
- nr 人名
- nr1 汉语姓氏
- nr2 汉语名字
- nrj 日语人名
- nrf 音译人名
- ns 地名
- nsf 音译地名
- nt 机构团体名
- nz 其它专名
- nl 名词性惯用语
- ng 名词性语素
2、时间词
- t 时间词
- tg 时间词性语素
3、处所词
- s 处所词 (在公司,在学校)
4、方位词
- f 方位词
5、动词
- v 动词
- vd 副动词
- vn 名动词
- vshi 动词“是”
- vyou 动词“有”
- vf 趋向动词
- vx 形式动词
- vi 不及物动词(内动词)
- vl 动词性惯用语
- vg 动词性语素
6、形容词
- a 形容词
- ad 副形词
- an 名形词
- ag 形容词性语素
- al 形容词性惯用语
7、区别词
- b 区别词
- bl 区别词性惯用语
8、状态词
- z 状态词
9、代词
- r 代词
- rr 人称代词
- rz 指示代词
- rzt 时间指示代词
- rzs 处所指示代词
- rzv 谓词性指示代词
- ry 疑问代词
- ryt 时间疑问代词
- rys 处所疑问代词
- ryv 谓词性疑问代词
- rg 代词性语素
10、数词
- m 数词
- mq 数量词
11、量词
- q 量词
- qv 动量词
- qt 时量词
12、副词
- d 副词
13、介词
- p 介词
- pba 介词“把”
- pbei 介词“被”
14、连词
- c 连词
- cc 并列连词
文本挖掘主要有哪些功能
自然语言处理技术文本挖掘功能:
* 涉黄涉政检测:对文本内容做涉黄涉政检测,满足相应政策要求;
* 垃圾评论过滤:在论坛发言或用户评论中,过滤文本中的垃圾广告,提升文本总体质量;
* 情感分析:对用户评论等文本内容做情感分析,指导决策与运营;
* 自动标签提取:自动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形式;
* 文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分类.