python中jieba分词使用基本介绍
结巴分词的三种模式
# encoding=utf-8
# 分词模式介绍
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
type(seg_list)
输出结果如下
结巴分词标注词性
# encoding=utf-8
# 分词词性标注
import jieba.posseg as pseg
strings = '我来到北京清华大学'
words = pseg.cut(strings)
for words, flag in words:
print('%s %s'%(words,flag))
输出结果如下:
提示:一定要写上如下代码,否则有些编译器会报错。这段的目的是为了指定编码格式,因为中间用到的有中文。
# encoding=utf-8