Python-Jieba库及其使用

一、Jieba库基础知识

  (1)jieba是优秀的中文分词第三方库

      分词:通过特定手段获得每个单词

  (2)jieba分词依靠中文词库,确定汉字之间的关联概率

  (3)除了分词,用户还可以添加自定义词组

安装:(cmd命令行)pip install jieba

三种模式及对应的常用函数

  精确模式 ——文本精确切分,不存在冗余          ——jieba.lcut()   返回一个列表型分词结果

  全模式——把所有可能的词语都扫描出来,有冗余       ——jieba.lcut( s, cut_all = True)  返回列表

  搜索引擎模式——精确模式基础上,对长词再次切分      ——jieba.lcut_for_search(s)

                                 jieba.add_word(w) 向分词词典增加新词

二、实例    

三、前期准备

 找一份文件,将其内容复制到一个文本文档。

          我在学习资料中找了《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》,并将上述文档命名为  "政府工作报告.txt"。(我已经将这份文件粗略地做成了一份词云,详情请看 Python-好玩的词云

词频统计代码如下:

import jieba
excludes = {}
txt = open("政府工作报告.txt", "r", encoding='gbk').read()
words  = jieba.lcut(txt)  #分词处理,形成列表words
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
for word in excludes:    #删除counts内的词,多用于人物词频统计
    del(counts[word])
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(25):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

得到25个出现词频最高的词汇: 

  制度 197   完善 126   坚持 118   体系 104   发展 91

  健全 90   国家 79   治理 77   社会主义 69   人民 64

  建设 63   机制 62   中国 57   推进 54   加强 54

  社会 45   特色 43   能力 39   推动 38   领导 37

  监督 37   工作 35   文化 35   全面 35   政治 30

猜你喜欢

转载自www.cnblogs.com/Anjoras-bk/p/12924696.html