python中jieba分词使用基本介绍

python中jieba分词使用基本介绍

结巴分词的三种模式

# encoding=utf-8
# 分词模式介绍
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
type(seg_list)

输出结果如下
在这里插入图片描述

结巴分词标注词性

# encoding=utf-8
# 分词词性标注
import jieba.posseg as pseg
strings = '我来到北京清华大学'
words = pseg.cut(strings)
for words, flag in words:
    print('%s %s'%(words,flag))

输出结果如下:
在这里插入图片描述
提示:一定要写上如下代码,否则有些编译器会报错。这段的目的是为了指定编码格式,因为中间用到的有中文。

# encoding=utf-8

猜你喜欢

转载自blog.csdn.net/weixin_44301621/article/details/89499703