jieba库的基本使用

分词

import jieba

# 朱自清散文节选
text = '人生就是一种承受,一种压力,让我们在负重中前行,在逼迫中奋进。无论走到哪里,我们都要学会支撑自己,没有人陪你走一辈子,所以你要适应孤独,没有人会帮你一辈子,所以你要奋斗一生。'

seg_text = jieba.cut(text, cut_all=False)

print('/'.join(seg_text))

人生/就是/一种/承受/,/一种/压力/,/让/我们/在/负重/中/前行/,/在/逼迫/中/奋进/。/无论/走/到/哪里/,/我们/都/要/学会/支撑/自己/,/没有/人/陪你走/一辈子/,/所以/你/要/适应/孤独/,/没有/人会/帮/你/一辈子/,/所以/你/要/奋斗/一生/。

import jieba

# 《人民的民义》节选
text = '屋内,祁同伟一手扶着架在窗台上的狙击步枪,一手握着制式手枪,久久屏住呼吸。小院落里空空荡荡的,没有任何隐蔽物。侯亮平的身影出现了,一颗脑袋晃动着显现在狙击步枪的瞄准仪里。'

# 添加新词之前
seg_text_ = jieba.cut(text, cut_all=False)

print('/'.join(seg_text_))

# 添加新词之后
jieba.suggest_freq('祁同伟', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('瞄准仪', True)

seg_text = jieba.cut(text, cut_all=False)

print('/'.join(seg_text))

屋内/,/祁同伟/一/手扶/着/架/在/窗台上/的/狙击步枪/,/一/手握着/制式/手枪/,/久久/屏住/呼吸/。/小/院落/里/空空荡荡/的/,/没有/任何/隐蔽物/。/侯亮/平/的/身影/出现/了/,/一颗/脑袋/晃动/着/显现/在/狙击步枪/的/瞄准/仪里/。

屋内/,/祁同伟/一/手扶/着/架/在/窗台上/的/狙击步枪/,/一/手握着/制式/手枪/,/久久/屏住/呼吸/。/小/院落/里/空空荡荡/的/,/没有/任何/隐蔽物/。/侯亮平/的/身影/出现/了/,/一颗/脑袋/晃动/着/显现/在/狙击步枪/的/瞄准仪/里/。

词性标注

import jieba.posseg as pseg

# 朱自清散文节选
text = '人生就是一种承受,一种压力,让我们在负重中前行,在逼迫中奋进。无论走到哪里,我们都要学会支撑自己,没有人陪你走一辈子,所以你要适应孤独,没有人会帮你一辈子,所以你要奋斗一生。'

result = pseg.cut(text)

words = []

for w in result:
    words.append((w.word, w.flag)) # 单词和词性
print(words)

[(‘人生’, ‘n’), (‘就是’, ‘d’), (‘一种’, ‘m’), (‘承受’, ‘v’), (’,’, ‘x’), (‘一种’, ‘m’), (‘压力’, ‘n’), (’,’, ‘x’), (‘让’, ‘v’), (‘我们’, ‘r’), (‘在’, ‘p’), (‘负重’, ‘v’), (‘中’, ‘f’), (‘前行’, ‘v’), (’,’, ‘x’), (‘在’, ‘p’), (‘逼迫’, ‘v’), (‘中’, ‘f’), (‘奋进’, ‘v’), (’。’, ‘x’), (‘无论’, ‘c’), (‘走’, ‘v’), (‘到’, ‘v’), (‘哪里’, ‘r’), (’,’, ‘x’), (‘我们’, ‘r’), (‘都’, ‘d’), (‘要’, ‘v’), (‘学会’, ‘n’), (‘支撑’, ‘v’), (‘自己’, ‘r’), (’,’, ‘x’), (‘没有’, ‘v’), (‘人’, ‘n’), (‘陪你走’, ‘l’), (‘一辈子’, ‘m’), (’,’, ‘x’), (‘所以’, ‘c’), (‘你’, ‘r’), (‘要’, ‘v’), (‘适应’, ‘v’), (‘孤独’, ‘a’), (’,’, ‘x’), (‘没有’, ‘v’), (‘人会’, ‘n’), (‘帮’, ‘v’), (‘你’, ‘r’), (‘一辈子’, ‘m’), (’,’, ‘x’), (‘所以’, ‘c’), (‘你’, ‘r’), (‘要’, ‘v’), (‘奋斗’, ‘v’), (‘一生’, ‘m’), (’。’, ‘x’)]

关键字提取

import jieba.analyse

# 朱自清散文节选
text = '人生就是一种承受,一种压力,让我们在负重中前行,在逼迫中奋进。无论走到哪里,我们都要学会支撑自己,没有人陪你走一辈子,所以你要适应孤独,没有人会帮你一辈子,所以你要奋斗一生。'

keywords = jieba.analyse.extract_tags(text, topK=5) # 返回TFIDF权重最大的topK个关键词

print(keywords)

[‘一辈子’, ‘陪你走’, ‘人会’, ‘奋进’, ‘负重’]

返回单词在原文的起始位置

import jieba

# 朱自清散文节选
text = '人生就是一种承受,一种压力,让我们在负重中前行,在逼迫中奋进。无论走到哪里,我们都要学会支撑自己,没有人陪你走一辈子,所以你要适应孤独,没有人会帮你一辈子,所以你要奋斗一生。'

result = jieba.tokenize(text, mode='search') # 搜索模式
words = []
for w in result:
    words.append((w[0], w[1], w[2])) # 单词/起点/终点
    
print(words)

[(‘人生’, 0, 2), (‘就是’, 2, 4), (‘一种’, 4, 6), (‘承受’, 6, 8), (’,’, 8, 9), (‘一种’, 9, 11), (‘压力’, 11, 13), (’,’, 13, 14), (‘让’, 14, 15), (‘我们’, 15, 17), (‘在’, 17, 18), (‘负重’, 18, 20), (‘中’, 20, 21), (‘前行’, 21, 23), (’,’, 23, 24), (‘在’, 24, 25), (‘逼迫’, 25, 27), (‘中’, 27, 28), (‘奋进’, 28, 30), (’。’, 30, 31), (‘无论’, 31, 33), (‘走’, 33, 34), (‘到’, 34, 35), (‘哪里’, 35, 37), (’,’, 37, 38), (‘我们’, 38, 40), (‘都’, 40, 41), (‘要’, 41, 42), (‘学会’, 42, 44), (‘支撑’, 44, 46), (‘自己’, 46, 48), (’,’, 48, 49), (‘没有’, 49, 51), (‘人’, 51, 52), (‘陪你走’, 52, 55), (‘一辈’, 55, 57), (‘辈子’, 56, 58), (‘一辈子’, 55, 58), (’,’, 58, 59), (‘所以’, 59, 61), (‘你’, 61, 62), (‘要’, 62, 63), (‘适应’, 63, 65), (‘孤独’, 65, 67), (’,’, 67, 68), (‘没有’, 68, 70), (‘人会’, 70, 72), (‘帮’, 72, 73), (‘你’, 73, 74), (‘一辈’, 74, 76), (‘辈子’, 75, 77), (‘一辈子’, 74, 77), (’,’, 77, 78), (‘所以’, 78, 80), (‘你’, 80, 81), (‘要’, 81, 82), (‘奋斗’, 82, 84), (‘一生’, 84, 86), (’。’, 86, 87)]

发布了51 篇原创文章 · 获赞 74 · 访问量 24万+

猜你喜欢

转载自blog.csdn.net/weixin_44766179/article/details/103661059
今日推荐