python数据挖掘实战笔记——文本分析（6）：关键词提取 - 代码天地

python数据挖掘实战笔记——文本分析（6）：关键词提取

其他 2019-03-14 17:11:15 阅读次数: 0

紧接上篇的文档，这节学习关键字的提取，关键词——keyword，是人们快速了解文档内容，把握主题的重要内容。

#导入需要的模块
import os
import codecs
import pandas
import jieba
import jieba.analyse
#搭建语料库
for root, dirs, files in os.walk(
    r"C:\Users\www12\Desktop\data\2.6\SogouC.mini\\Sample\\"
):
    for name in files:
        filePath = root + '\\' + name;
        f = codecs.open(filePath, 'r', 'utf-8')
        content = f.read().strip()
        f.close()#读取文件内容
        tags = jieba.analyse.extract_tags(content, topK=5)#获取每篇文本词频在前五的关键词
        filePaths.append(filePath)
        contents.append(content)

关键字提取：
tags = jieba.analyse.extract_tags(content, topK=n)
参数： content：文章内容 topK=n：n个关键词

        tag1s.append(tags[0])#数组提取对应的关键词
        tag2s.append(tags[1])
        tag3s.append(tags[2])
        tag4s.append(tags[3])
        tag5s.append(tags[4])
#关键词数组添加至数据框
tagDF = pandas.DataFrame({
    'filePath': filePaths, 
    'content': contents, 
    'tag1': tag1s, 
    'tag2': tag2s, 
    'tag3': tag3s, 
    'tag4': tag4s, 
    'tag5': tag5s
})

提取完成，结果如图：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42695959/article/details/82845781

python数据挖掘实战笔记——文本分析（6）：关键词提取

python数据挖掘实战笔记——文本挖掘（8）：用sklearn包进行关键字提取

python--对文本分词去停用词提取关键词并词云展示完整代码示例

自然语言处理 | (8)中文文本分析、可视化与新闻关键词提取

实战关键词提取

Python TF-IDF 算法提取文本关键词

2、 python文本关键词提取实现（案例）

Python数据挖掘——文本分析

鬼吹灯文本挖掘5：sklearn实现文本聚类和文本分类鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

Python实现jieba对文本分词并写入新的文本文件，然后提取出文本中的关键词

文本关键词提取小结

文本关键词提取算法

文本关键词提取二三事

文本关键词提取方法综述

《Python数据分析与数据挖掘实战》第十五章学习——文本分析

文本分析--关键词获取（jieba分词器，TF-IDF模型）

HanLP 关键词提取算法分析

Python re.findall()获取包含关键词的文本，可以自定义关键词，正则提取含有某关键词的描述

【数据处理】[python]提取某巨量文本中关键词及前N行字符串

关键词提取

python实现关键词提取

用Python提取中文关键词

【Python】通过pyhanlp提取关键词

python实现关键词提取内容

Python实现自动关键词提取

Serverless 实战：如何结合 NLP 实现文本摘要和关键词提取？

鬼吹灯文本挖掘2：wordcloud 词云展示鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

自然语言处理（NLP）词法分析--文本关键词提取

鬼吹灯文本挖掘3：关键词提取extract_tags和使用sklearn TfidfTransformer 计算TF-IDF矩阵鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

Python高亮文本中的关键词

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)