jieba.analyse的使用：提取关键字/词频制作词云

① jieba.analyse.extract_tags 提取关键字：

print("***案例1***"*3)
txt='那些你很冒险的梦，我陪你去疯，折纸飞机碰到雨天终究会坠落，伤人的话我直说，因为你会懂，冒险不冒险你不清楚，折纸飞机也不会回来，做梦的人睡不醒！'
Key=jieba.analyse.extract_tags(txt,topK=3)
print(Key)
#-----------------------------------------------------------------------------------
print("***案例2***"*3)
# 字符串前面加u表示使用unicode编码
content = u'中国特色社会主义是我们党领导的伟大事业，全面推进党的建设新的伟大工程，是这一伟大事业取得胜利的关键所在。党坚强有力，事业才能兴旺发达，国家才能繁荣稳定，人民才能幸福安康。党的十八大以来，我们党坚持党要管党、从严治党，凝心聚力、直击积弊、扶正祛邪，党的建设开创新局面，党风政风呈现新气象。习近平总书记围绕从严管党治党提出一系列新的重要思想，为全面推进党的建设新的伟大工程进一步指明了方向。'
# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词
keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())
# 访问提取结果
for item in keywords:
    # 分别为关键词和相应的权重
    print(item[0], item[1])

② jieba.analyse.textrank 提取关键字：

# 同样是四个参数，但allowPOS默认为('ns', 'n', 'vn', 'v')
# 即仅提取地名、名词、动名词、动词
keywords = jieba.analyse.textrank(content, topK=5, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
# 访问提取结果
for item in keywords:
    # 分别为关键词和相应的权重
    print(item[0], item[1])

③ 在线词云制作【可以自认定图片背景以及字体，中文的必须使用中文字体才能显示】

import jieba.analyse
# 在线制作词云  https://wordart.com/create
path = './数据挖掘测试文本.txt'
file_in = open(path, 'r',encoding='utf-8')
content = file_in.read()

# 停止词在网上找
try:
    jieba.analyse.set_stop_words('./stop_words.txt')
    tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
    for v, n in tags:
        #权重是小数，为了凑整，乘了一万
        # 中间使用 制表符\t 是为了在线录入数据时候 选择csv格式自动添加词
        out_words=v + '\t' + str(int(n * 10000))
        print(out_words)
        with open('./out_词频.txt','a+',encoding='utf-8')as f:
            f.write(out_words+'\n')
finally:
    file_in.close()

效果图：

jieba.analyse的使用：提取关键字/词频制作词云

猜你喜欢