内容并不完全靠谱,仅供参考
自然语言处理的基本内容如下:
①:中文实体识别,关系抽取,依存句法
词性标注>中文分词>情感分析>信息抽取>实体识别>关系依存
大致内容:上海自来水来自海上--------
分词规则:上海|自来水|来自|海上
大致内容:对每个词进行词性标注,比如副词,动词,名词
大致内容:从文本中识别出基本特征的文本内容,比如人名,地名
一.自然语言处理之基本模块介绍:
import jieba test_text=jieba.cut('我来到上海自来水厂检查水源',cut_all=False)
print('/'.join(list(test_text)))
不是全模式就是精确模式
Res:
而默认情况下就是精确模式
我/来到/上海/自来水厂/检查/水源
二.Analyse import jieba.analyse content=""" 首先罗的定位是罪恶一代的靠前几位的超新星,又是"d"之一族,资质奇高。 在说罗的战绩,一刀切下藤虎的陨石,而面不改色,从藤虎重力下逃脱,在明哥眼皮底下救下山治一命一刀两断,和常态明哥单打独斗, 被废掉一命后装死,配合2档路飞冲刺,用伽马刀偷袭得逞,新买休克补刀差点击杀明哥,无奈明哥果实开发逆天。。 """ content_jieba=jieba.analyse.extract_tags(content,topK=10,allowPOS=0,withWeight=True)
for x,y in enumerate(content_jieba):
print(x,y[0],y[1]) |
权重 Topk 无监督学习方法:
更具文本内容中出现的词频,来返回出现结果一次最多的次数
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
当词频的结果是20时,Topk=10的作用是,当数量大于10时,比如20,返回10 当词频的结果是2时,Topk=10的作用只是限制比这个数量大,而不比这个数量小的结果
content_jieba=jieba.analyse.extract_tags(content,topK=5,allowPOS='i',withWeight=True)
for x,y in enumerate(content_jieba):
print(x,y[0],y[1])
Res:
1 一刀两断 3.468056696833333
2 一刀切 3.257847755643333
二. import jieba.posseg as po 功能实现逐一的精确分词,同时标注词性
content_jieba_=po.cut(content)
for x,y in content_jieba_:
print(x, y)
Res: [pair('\n', 'x'), pair('首先', 'd')]