词法分析:词性标注

词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程

分词,命名实体识别,词性标注 并称 汉语词法分析“三姐妹”。

在线演示平台:http://ictclas.nlpir.org/nlpir/


词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation)

是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

语料库 (corpus,复数corpora)指经科学取样和加工的大规模电子文本库。


所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。

比如,给定一个句子:“我中了一张彩票”。

对其的标注结果可以是:“/代词   /动词   /助词/   /数词/   /量词/   彩票/名词  /标点

词性标注的难点主要是由词性兼类所引起的。

词性兼类是指自然语言中一个词语的词性多余一个的语言现象。(一词多性)


常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。


 【jieba】

import jieba.posseg as pseg
words = pseg.cut("老师说衣服上除了校徽别别别的")
for word, flag in words:
    print('%s %s' % (word, flag))

老师 n  说 v  衣服 n  上 f  除了 p  校徽 n  别 d  别 d  别的 r


 【hanLP】

from pyhanlp import *
content = "老师说衣服上除了校徽别别别的"
print(HanLP.segment(content))

老师/nnt,   说/v,   衣服/n,   上/f,   除了/p,   校徽/n,   别/d,   别/d,   别的/rzv


ref:

自然语言处理3 -- 词性标注

https://github.com/hankcs/HanLP/tree/doc-zh

https://blog.csdn.net/weixin_42398658/article/details/85048917

猜你喜欢

转载自www.cnblogs.com/hbuwyg/p/13193418.html