伪知识之通俗易懂的解释自然语言处理中的专业名词零持续更新【内向即衰亡--沈吟秋】

内容并不完全靠谱,仅供参考

自然语言处理的基本内容如下:                   

①:中文实体识别,关系抽取,依存句法                     

词性标注>中文分词>情感分析>信息抽取>实体识别>关系依存                                            

大致内容:上海自来水来自海上--------                                  

分词规则:上海|自来水|来自|海上                                    

大致内容:对每个词进行词性标注,比如副词,动词,名词                                                                      

大致内容:从文本中识别出基本特征的文本内容,比如人名,地名  

一.自然语言处理之基本模块介绍:

import jieba test_text=jieba.cut('我来到上海自来水厂检查水源',cut_all=False)

print('/'.join(list(test_text)))            

    不是全模式就是精确模式

Res:                                      

而默认情况下就是精确模式

我/来到/上海/自来水厂/检查/水源      

 

二.Analyse import jieba.analyse content=""" 首先罗的定位是罪恶一代的靠前几位的超新星,又是"d"之一族,资质奇高。 在说罗的战绩,一刀切下藤虎的陨石,而面不改色,从藤虎重力下逃脱,在明哥眼皮底下救下山治一命一刀两断,和常态明哥单打独斗, 被废掉一命后装死,配合2档路飞冲刺,用伽马刀偷袭得逞,新买休克补刀差点击杀明哥,无奈明哥果实开发逆天。。 """ content_jieba=jieba.analyse.extract_tags(content,topK=10,allowPOS=0,withWeight=True)

for x,y in enumerate(content_jieba):

print(x,y[0],y[1])                      |                                                                         

权重     Topk   无监督学习方法:

更具文本内容中出现的词频,来返回出现结果一次最多的次数

allowPOS 仅包括指定词性的词,默认值为空,即不筛选

当词频的结果是20时,Topk=10的作用是,当数量大于10时,比如20,返回10 当词频的结果是2时,Topk=10的作用只是限制比这个数量大,而不比这个数量小的结果

content_jieba=jieba.analyse.extract_tags(content,topK=5,allowPOS='i',withWeight=True)

for x,y in enumerate(content_jieba):

print(x,y[0],y[1])

Res:

1 一刀两断 3.468056696833333

2 一刀切 3.257847755643333  

 

二. import jieba.posseg as po       功能实现逐一的精确分词,同时标注词性

content_jieba_=po.cut(content)

for x,y in content_jieba_:

print(x, y)

Res: [pair('\n', 'x'), pair('首先', 'd')] 

猜你喜欢

转载自blog.csdn.net/qq_37995231/article/details/82819568