python数据挖掘实战笔记——文本分析(6):关键词提取

紧接上篇的文档,这节学习关键字的提取,关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。

#导入需要的模块
import os
import codecs
import pandas
import jieba
import jieba.analyse
#搭建语料库
for root, dirs, files in os.walk(
    r"C:\Users\www12\Desktop\data\2.6\SogouC.mini\\Sample\\"
):
    for name in files:
        filePath = root + '\\' + name;
        f = codecs.open(filePath, 'r', 'utf-8')
        content = f.read().strip()
        f.close()#读取文件内容
        tags = jieba.analyse.extract_tags(content, topK=5)#获取每篇文本词频在前五的关键词
        filePaths.append(filePath)
        contents.append(content)

关键字提取:
tags = jieba.analyse.extract_tags(content, topK=n)
参数: content:文章内容 topK=n:n个关键词

        tag1s.append(tags[0])#数组提取对应的关键词
        tag2s.append(tags[1])
        tag3s.append(tags[2])
        tag4s.append(tags[3])
        tag5s.append(tags[4])
#关键词数组添加至数据框
tagDF = pandas.DataFrame({
    'filePath': filePaths, 
    'content': contents, 
    'tag1': tag1s, 
    'tag2': tag2s, 
    'tag3': tag3s, 
    'tag4': tag4s, 
    'tag5': tag5s
})

提取完成,结果如图:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42695959/article/details/82845781
今日推荐